Martin Hilbert

Martin Hilbert, experto en redes
digitales: Obama y Trump usaron el Big

Data para lavar cerebros
Daniel Hopenhayn 19 Enero, 2017 Tags: big data, Estados Unidos, Martin Hilbert,
obama, redes digitales, Trump
Comprtelo Tuitalo
Lo conocen en la academia de las TICs por haber creado el primer estudio que estim
cunta informacin hay en el mundo, cifras que ac comenta en un castellano aliado
con modismos chilenos, tecnicismos gringos y erres alemanas. Martin Hilbert (39),
Doctor en Ciencias Sociales y PhD en Comunicacin, es alemn, pero vivi largos aos
en Chile como funcionario de la Cepal. Hoy trabaja en la Universidad de California, es
el asesor tecnolgico de la Biblioteca del Congreso de Estados Unidos y vive a cuarenta
minutos de Silicon Valley, donde un futuro inevitable toma forma. En esta entrevista, no
apta para amantes de la vida retirada, explica cmo el Big Data permite a la informacin
interpretarse a s misma y adelantarse a nuestras intenciones, cunto saben las grandes
empresas de nosotros, y lo que ms le preocupa: lo fcil que est siendo convertir la
democracia en una dictadura de la informacin, haciendo de cada ciudadano una
burbuja distinta. Tambin habla sobre la posibilidad de que la inteligencia artificial
llegue a generar una conciencia superior. Cree que eso va a ocurrir, pero no hay que
tener miedo: No va a ser Terminator contra nosotros.
Cunta informacin hay en el mundo?
La ltima vez que actualic este estudio, hace dos aos, haba 5 zetabytes. Un ZB es
un 1 con 21 ceros, lo cual no te dir mucho. Pero si t pones esta informacin en libros,
convirtiendo las imgenes y todo eso a su equivalente en letras, podras hacer 4500 pilas
de libros que lleguen hasta el sol. O sea, hay mucha informacin.
Y a qu ritmo est creciendo?

A un ritmo exponencial. Se duplica cada dos aos y medio. Entonces, ahora
probablemente son 10 ZB.
O sea, ocho mil pilas de libros que llegan al sol.

Ocho o nueve mil pilas, s. Piensa en esto: desde el 2014 hasta hoy, creamos tanta
informacin como desde la prehistoria hasta el 2014. Y lo ms impresionante, para m,
es que la informacin digital va a superar en cantidad a toda la informacin biolgica
que existe en el planeta. La vida es procesamiento de informacin, no? Toma del
ambiente molculas normalmente muertas, toma fotones del sol, y los convierte en
estructuras complejas de informacin con un cdigo base que es el ADN. Y ya existe
ms informacin digital que cdigo gentico humano. Aun contando cada copia de
ADN en las trillones de clulas de cada persona en el mundo, en la humanidad hay
como 1 ZB de informacin. Y durante este siglo, la informacin digital va a superar a
toda la informacin gentica que existe en la bisfera. Todo lo cual lleva a muchas
preguntas sobre el futuro de la humanidad, no?
Parece que la pregunta existencial ms importante va a ser cmo interpretamos

tantos datos.
Y la respuesta es que la nica manera de interpretarlos es con mquinas tambin. Este
procesador [apunta a su cerebro] no aguanta eso, sabe hacer otras cosas. Ahora, lo
bueno es que la informacin crece muy rpido, pero nuestro poder de computacin
crece tres veces ms rpido. Se duplica en menos de un ao. Porque la tecnologa
siempre es mejor pero tambin porque tenemos muchas ms mquinas, no? T mismo
tienes ahora un celular, un computador, etc., que interpretan muchos datos por ti. Y ah
viene toda la cuestin de la inteligencia artificial [en adelante, IA] y el Deep Learning,
que ahora es lo ms importante.
Qu es el Deep Learning?
Es la manera como se hace la IA hoy en da. Son redes neuronales que funcionan de
manera muy similar al cerebro, con muchas jerarquas. Todo esto que hacen Apple y
Google y todas las Siri en el telfono, todo usa Deep Learning. Es una IA sper
poderosa que descubrimos hace cinco aos y ya todo el mundo la usa, porque es muy
superior a todo lo que habamos encontrado.
Y la otra pregunta existencial, qu tan espiados estamos?

Nooo, sper espiados! Todo est espiado. Y es muy interesante, porque despus de
Edward Snowden la gente dijo: Qu es esto, pueden ver mis fotos desnudo! Ya,
bueno, qu tanto. Nadie se fue a protestar a la calle, la cosa sigui tal cual. La NSA
confes que hizo un par de cosas demasiado ilegales y bueno, esas cosas se arreglaron.
Pero las otras no, y cada vez te van a espiar ms. Yo no digo que esto sea bueno o malo,
pero la gente tiene que saber. Y si la gente sabe que est espiada y no le importa, est
perfecto. Ahora, la pregunta delicada es qu pasa si esos datos llegan a las manos de
alguien que pueda abusar de ellos. En Silicon Valley no estn muy contentos con que
sus herramientas ahora las pueda usar Donald Trump. Estn muy decepcionados, la
verdad.
Qu cosas de nosotros se pueden saber de un momento a otro?

De partida, dnde ests y dnde has estado. Si tienes Gmail en tu celular con wifi,
puedes ver en Google Maps un mapa mundial que muestra dnde estuviste cada da, a
cada hora, durante los ltimos dos o tres aos (ver www.google.com/maps/timeline). Es
una informacin que t les permites coleccionar al aceptar los trminos de licencia
cuando instalas la aplicacin.
Lo que uno nunca lee.

Exactamente. Y en muchos casos t puedes optar que no lo hagan, pero nadie se fija.
Ahora, lo interesante es que con estos datos de movilidad se pueden hacer estudios. Y
ya sabemos, por ejemplo, que se puede predecir con casi un 90% de probabilidad dnde
vas a estar t en cada momento de cada da del ao que viene. Imagnate lo que vale esa
informacin para una empresa que hace marketing, por ejemplo.
Cuentas que en frica el celular hizo lo que nunca pudo hacer el certificado de
nacimiento. La huella de que una persona existe es su telfono.
Claro, es sper poderoso. Es tu verdadera huella digital. Y frica es el caso extremo,
pero piensa en Amrica Latina, donde hay tanto orgullo por los censos. El censo de
Chile ahora fue un desastre y era una tragedia, no? Pero con los datos de tu celular, si
uso solamente lo que se llama metadata, o sea sin escuchar tus conversaciones ni saber
con quin hablas, sino slo con qu frecuencia y con qu duracin usas tu celular, con
eso yo puedo hacer ingeniera reversa y reproducir el 85% de tus resultados de un
censo: si eres hombre o mujer, cul es tu rango de ingresos, si tienes nios, si ests
casado, tu origen tnico
Slo conociendo la frecuencia y duracin con que uso mi celular?

S. El censo que hacen cada 10 aos, que es tan costoso y tan importante, lo puedo
reconstruir en un 85% con esos dos datos. De eso se trata el Big Data: tenemos tantos
datos y tanta capacidad de procesarlos, de identificar correlaciones, que podemos hacer
a la sociedad muy predecible. Y cuando puedes predecir, puedes programar.
Y en el caso de las empresas de Internet que nos prestan servicios gratuitos, qu

tan importante es para su negocio la informacin que tienen de nosotros?
Todo, eso es todo lo que tienen. Facebook vale billones de dlares por la informacin,
no por otra cosa. De las diez empresas del mundo tasadas a un precio ms alto, yo creo
que cinco son proveedoras de informacin. Y la gente siempre dice no, hay que regular
todo eso, proteger a los usuarios. Pero la demanda ms extrema que he escuchado en
todas esas conferencias donde voy, es que necesitamos derechos de propiedad de datos,
como los de propiedad intelectual, para que t puedas vender tus datos y no regalarlos.
Y yo voy con este reclamo donde mis amigos en Silicon Valley y me dicen pero huen,
si ya lo estamos haciendo! T sigues siendo dueo de tus datos, pero aceptas que yo
tambin lo sea al aprobar los trminos de licencia. Y a cambio puedes usar Google Maps
gratis y te ahorras una hora de taco al da, no es fantstico?. Ah llegamos al fin de la
discusin, no hay nada ms que hacer. Incluso ante las propuestas ms progresistas,
Silicon Valley ya tiene respuesta. Y la verdad es que la gente se beneficia tanto de eso
que no le molesta.
Tambin las empresas telefnicas, que uno supone que slo nos cobran el plan,
hacen buena plata con nuestros datos, no?
Claro. Por ejemplo, Smart Steps es la empresa de Telefnica que vende los datos de la
compaa. Si t tienes Movistar, tus datos estn ah vendidos.
A quin le sirven?
A mucha gente! Si t quieres abrir una tienda de corbatas en una estacin de metro, te
vale mucho saber cuntos hombres caminan en cada salida del metro, entonces compras
estos datos de Telefnica. Y tambin los puedes usar en tiempo real: saber a qu hora
pasa la gente, e incluso si se detiene o no a ver el anuncio de oferta que pusiste afuera. Y
lo ms impresionante es que esto convirti a las ciencias sociales, de las que siempre se
burlaron, en la ciencia ms rica en datos. Antes tenas que hasta negociar con
diplomticos para que te prestaran una base de datos de cien filas por cien columnas. Y
en las universidades hacan experimentos con 15 alumnos de pregrado, que necesitaban
crditos extra para pasar el ramo, todos blancos, todos de 18 aos, y decan miren, as
funciona la psicologa humana. De adnde! Nosotros nunca tuvimos datos, y por eso
nunca funcionaban las polticas pblicas. Y de la noche a la maana, el 95% de los
sujetos que estudiamos pas a tener un sensor de s mismo 24 horas al da. Los bilogos
siempre dijeron eso no es ciencia, no tienen datos. Pero ellos no saben dnde estn las
ballenas en el mar. Hoy nosotros s sabemos dnde estn las personas, pero tambin
sabemos qu compran, qu comen, cundo duermen, cules son sus amigos, sus ideas
polticas, su vida social. Se puede abusar tambin, como Obama y Trump lo hicieron en
sus campaas, como Hillary no lo hizo y por eso perdi. Pero el gran cambio es que
estamos conociendo a la sociedad como nunca antes y podemos hacer predicciones con
un nivel cientfico. Lo de antes era arte, no era ciencia!
TRUMP TE CONOCE
Entiendo que algunos estudios ya han logrado predecir un montn de cosas a

partir de nuestra conducta en Facebook.
Claro, esos son los datos que Trump us. Teniendo entre 100 y 250 likes tuyos en
Facebook, se puede predecir tu orientacin sexual, tu origen tnico, tus opiniones
religiosas y polticas, tu nivel de inteligencia y de felicidad, si usas drogas, si tus paps
son separados o no. Con 150 likes, los algoritmos pueden predecir el resultado de tu test
de personalidad mejor que tu pareja. Y con 250 likes, mejor que t mismo. Este estudio
lo hizo Kosinski en Cambridge, luego un empresario que tom esto cre Cambridge
Analytica y Trump contrat a Cambridge Analytica para la eleccin.
Qu hizo con eso?

Usaron esa base de datos y esa metodologa para crear los perfiles de cada ciudadano
que puede votar. Casi 250 millones de perfiles. Obama, que tambin manipul mucho a
la ciudadana, en 2012 tena 16 millones de perfiles, pero ac estaban todos. En
promedio, t tienes unos 5000 puntos de datos de cada estadounidense. Y una vez que
clasificaron a cada individuo segn esos datos, lo empezaron a atacar. Por ejemplo, en el
tercer debate con Clinton, Trump plante un argumento, ya no recuerdo sobre qu
asunto. La cosa es que los algoritmos crearon 175 mil versiones de este mensaje con
variaciones en el color, en la imagen, en el subttulo, en la explicacin, etc. y lo
mandaron de manera personalizada. Por ejemplo, si Trump dice estoy por el derecho a
tener armas, algunos reciben esa frase con la imagen de un criminal que entra a una
casa, porque es gente ms miedosa, y otros que son ms patriotas la reciben con la
imagen de un tipo que va a cazar con su hijo. Es la misma frase de Trump y ah tienes
dos versiones, pero aqu crearon 175 mil. Claro, te lavan el cerebro. No tiene nada que
ver con democracia. Es populismo puro, te dicen exactamente lo que quieres escuchar.
Y qu hizo Obama?
Obama fue como el pionero en esto. En la campaa de 2012, para su reeleccin,
invirti en esto mil millones de dlares, mucho ms que en comerciales de TV. Y con
eso contrat a un grupo de cuarenta nerds, de Twitter, de Google, de Facebook, de
Craigslist, tres profesionales de pker, otro que trabaja con clulas madres, en fin. A
esos cuarenta nerds los puso en un subterrneo, les dio mil millones de dlares y un
nmero para el servicio de pizza, no? Y ah en el subterrneo crearon los 16 millones
de perfiles que les interesaban, los votantes indecisos. Sacaron datos de todos lados.
Incluso tuvieron acceso a las Setup-Boxes, lo que sera el DirectTV en Chile, que
registra cmo t ves televisin. Si tienen acceso a eso, ya saben lo que te interesa, y
empezaron a llevar comerciales individualizados. Lo ms delicado es que no slo
pueden mandarte el mensaje como ms te va a gustar, tambin pueden mostrarte slo
aquello con lo que vas a estar de acuerdo. Si Obama tiene sesenta compromisos de
campaa, puede que 58 te parezcan mal, pero al menos con dos vas estar de acuerdo.
Digamos que ests a favor del desarrollo verde y a favor del aborto. Bueno, empezaron
a mostrarte en Facebook slo estos dos mensajes.
Con avisos publicitarios?

No, lo hicieron ms sofisticado. Como algn amigo vas a tener que hizo un like a la
campaa de Obama, ese like les dio acceso a los perfiles de todos sus amigos esto
tambin va en la licencia que nunca leemos, entonces podan ver tu historial y
clasificarte. Y adems tenan acceso a postear desde el timeline de tu amigo, porque esto
tambin est permitido. l no lo ve, Facebook no se lo muestra, pero t s vas a ver
muchos artculos as como Obama el hroe de la energa alternativa, Obama el hroe
del aborto legal. No son propagandas de la campaa, son artculos de prensa bien
elegidos. Y si t por medio ao ves Obama hroe de estas dos cosas que te gustan, al
final vas a decir oye, tan mal no est este Obama. Bueno, en 2012 le cambiaron la
opinin al 78% de la gente que atacaron as. Y Trump lo hizo con 250 millones. Creo
que George Orwell se metera un tiro, porque ni l se imagin algo as. La democracia
es completamente intil con algo as.
En un artculo explicabas que tambin los call center de Estados Unidos te

clasifican mientras hablas, y cuando vuelves a llamar te
derivan a un empleado con una personalidad afn a la tuya.
As es. El que habla contigo no lo sabe, no? Una vez cont esto en una conferencia y
uno de mis estudiantes, la prxima vez que llam a un call center, le dijo oye huen,
deja de clasificarme la personalidad!. El otro no entenda nada, ja, ja, ja! El trabajo lo
hacen alrededor de diez mil algoritmos que te escuchan hablar y clasifican tu
personalidad en seis diferentes cajas. La ltima vez que habl con esta compaa, me
dijeron que ya el 30% de las llamadas a los call center de Estados Unidos estn
intermediadas as. Y ya hay sistemas que les dan inteligencia en tiempo real: el tipo est
ah con un monitor que le dice ahora es el momento de ofrecerle tal cosa, ahora ya
no. Pero eso es reciente, por ahora lo ms comn es que te dejan clasificado. Y todo
esto, al final, a qu nos lleva? A crear burbujas, en todos los niveles.
Cmo as?
Que la gente emocional slo hable con gente emocional, la gente de accin con la
gente de accin, los reactivos con los reactivos. Hablamos mucho de que ahora los
demcratas no hablan con republicanos, pero esta fragmentacin de la sociedad en
subgrupos va mucho ms all de la poltica. La verdad, es una cosa triste. Pero no es
culpa de la tecnologa, es la manera en que la usamos hoy da. Toda tecnologa es
normativamente neutral, t puedes usar un martillo para colgar un cuadro o para matar a
tu vecino. Lo mismo con la tecnologa digital: podramos usarla para unir gente, para
mezclar gente de opiniones opuestas, pero no lo estamos haciendo.
Y ms rezagada an queda la democracia, incapaz de mediar entre tanta

informacin fragmentada. No hay denominador comn.
Claro, el Big Data permite poner a la gente en muchas ms cajas que antes no veas, es
un arma de fragmentacin muy poderosa. S, esa es una amenaza. Esto de la privacidad
y el comercio no es el gran problema, la gente tiene razn en no preocuparse tanto. Es
til que las chicas reciban comerciales sobre la pldora y los chicos sobre condones,
no? Ahora, Big Data para la democracia representativa ah termina. T sabes que la
democracia siempre estuvo muy ligada a las posibilidades informacionales que tena
cada sociedad. Aristteles fue muy claro en decir que la democracia no poda ir ms all
de un radio de 70 km, porque la informacin no poda viajar ms que eso en un da. Por
eso la democracia griega fue para una ciudad. Y en Estados Unidos, por qu crearon
las primarias, los colegios electorales por cada Estado y todo eso que conocemos?
Porque el viaje en caballo de costa a costa tomaba una semana. Como no haba acceso a
la gente y la gente tampoco estaba informada, se necesit todo este constructo
representativo. Pero con la tecnologa actual, este constructo est completamente
abusado y tiene potencial para constituirse en una dictadura informacional, esto hay que
decirlo abiertamente. Esto es lo que ms me preocupa. La democracia representativa de
esta manera no funciona.
Obligados a pensarla de nuevo

La verdad es que tenemos que repensarla completamente. Y ya tampoco podemos
ignorar que las redes digitales son globales. O sea, personas que estn a miles de millas
se pueden ofender con una informacin que les llega y presentarse en la redaccin de
una revista para matar a los dibujantes. Es que todo esto pas muy rpido. Llevbamos
miles de aos separados en diferentes culturas y nos tuvimos que conocer en un par de
dcadas. En el Islam dijeron que no quieren ver mujeres desnudas, y un da llegamos
nosotros con el TV cable y les forzamos a mirar las tetas de Pamela Anderson. Y
nosotros no entendemos por qu ellos pueden tener dos esposas. Entonces, si la
informacin fluye globalmente, hasta dnde podremos prescindir de una gobernanza
global? No lo s. Pero esto va a ser un camino de ensayo y error, como siempre ocurri
con la tecnologa. Ahora vimos que Facebook, despus de la eleccin de Trump, empez
a limpiar sus fake news, estas noticias mentirosas. Hace tres meses decan no, nosotros
no somos editorial, y ahora estn sacando cosas. Ya es un comienzo.
Y los Estados, estn sabiendo aprovechar el Big Data para las polticas pblicas?
No, estn muy atrs todava. Pero tienen una oportunidad muy grande. Se estima que
el Estado posee alrededor de un tercio de los datos de un pas, lo que es mucho. Acaso
tiene un tercio del poder productivo? Ni loco. El gobierno sabe todo lo que pasa en los
colegios, en los hospitales, en los servicios de impuestos, cunta informacin hay ah!
Se puede aprovechar mucho ms para polticas sociales y econmicas, sobre todo en
Amrica Latina. Y lo segundo es poner la informacin que es pblica a disposicin de la
sociedad, lo que se llama el Open Data. Pero ah estamos an ms atrasados, incluso
ac. Por ejemplo, a m me nombraron Chair of Technology de la Biblioteca del
Congreso, que en EE.UU. siempre fue LA institucin de la informacin. Ellos mismos
me invitaron porque se dan cuenta de que perdieron el tren y Google les rob el show en
diez aos. Y cuando voy all, veo que todava podran recolectar mucha ms
informacin, y hacerla pblica. Los mapas el gobierno tiene un montn de mapas!
No necesitamos Google Maps, los militares tienen todos los mapas que necesitas. Por
qu no los hacen disponibles? Los precios de terrenos, qu tipo de terrenos hay para qu
tipo de agricultura, quin es el dueo del terreno, todo esto el gobierno lo tiene y
socializarlo podra ser muy productivo. Pero es una buena noticia: si el insumo de esta
nueva economa son los datos y el Estado tiene un tercio de ellos, los puede usar para
democratizar la economa.
Si es que tambin se democratiza la capacidad de usarlos.

S, esa ser la clave, y todava no est claro si la disponibilidad de informacin crea
ms o menos desigualdad. Pero si en otra poca el Estado destin recursos para llevar la
telefona a las reas rurales, ahora tendr que hacerlo para igualar el acceso a Big Data.
Son cosas que estamos aprendiendo, aunque los gobiernos ya podran estar haciendo
mucho ms.
EL FUTURO ARTIFICIAL
En Silicon Valley estn muy locos?

Ja, ja, ja! Depende. Algunos, como este alemn Peter Thiel, quien cre PayPal y que
ahora est con Trump, l est un poco loco. Pero la verdad es que no son locos, son un
poco arrogantes. Pero son arrogantes con justificacin, porque realmente cambian el
mundo, mucho ms que un gobierno. Por eso tambin les lleg psimo lo de Trump.
Estaban muy enojados, no podan creer que se us su tecnologa para poner a un fascista
en el poder. No, la verdad es que todava estn muy confundidos con eso. Bueno, dicen
que la cada viene despus de la arrogancia.
Algo que cuesta asimilar es que los datos, al crecer tanto, ya se explican a s
mismos, descubren solos sus relaciones causa-efecto. Como el traductor de Google,
que se peg el gran salto cuando le quitaron las reglas de traduccin y empez
simplemente a comparar datos.
Y con eso, adems, ya puede traducir entre dos idiomas aunque nadie en el mundo
hable esos dos idiomas. Te cuento un caso. Te acuerdas de ese juego para Atari y PC,
parecido al pimpn, en que tenas que mover una barrita hacia los lados para achuntarle
a una pelota que rebotaba arriba en unos bloques? Y sacabas puntos al ir destruyendo
esos bloques.
S.
Bueno. Al DeepMind, un programa de IA que usa el Deep Learning, lo pusieron frente
a ese juego y le dijeron tienes que ganar puntos. Pero no le dijeron cmo se ganan los
puntos. Ni siquiera le dijeron vas a ver una barrita, una pelota y unos bloques arriba.
Solamente le dieron la capacidad de reconocer pixeles. A los diez minutos, el DeepMind
casi no agarraba la pelota, porque no entenda frente a qu situacin estaba. Despus de
dos horas, jugaba al nivel de un experto. Y a las cuatro horas, mejor que cualquier ser
humano. Pero no slo por su precisin tcnica, sino porque descubri una estrategia
para ganar que poca gente descubre. Es decir, slo correlacionando movimientos de
pixeles y puntos ganados por azar, lleg a innovar y ser ms creativo que la mayora de
los humanos. Es lo mismo que hace la IA con el ajedrez. Se supona que Go era el juego
en que nunca iba a pasar a los humanos, muchsimo ms complejo que el ajedrez.
Bueno, DeepMind le gan hace medio ao al campen de Go. Entonces s, la
informacin se autointerpreta y son mejores que nosotros.
Es cierto que las grandes compaas ya toman decisiones sin saber por qu las
toman? Slo porque la IA ve los datos y les dicen hagan esto.
Claro, y est perfecto. Adems, las relaciones de causalidad, muy filosficamente,
nunca las podemos conocer. Como deca Popper, slo podemos descartar causas: t no
puedes saber si realmente X caus Y, slo puedes comprobar que Z no causa Y. Pero
estas correlaciones nos sirven para explicar y predecir. Ahora, si t cambias el sistema
que produjo estos datos, ah te puedes equivocar muchas veces. Pero ese ya es otro
problema.
Pero tambin sera un problema si, por ejemplo, llegramos a meter preso a
alguien porque su conducta en Facebook, segn un programa, predice que es un
potencial asesino.
S, pero esto tambin lo hacen las personas. Si un siclogo dice que eres un peligro
para la sociedad, tambin te pueden encerrar. Y la verdad es que la IA es muchas veces
ms exacta que un psiclogo. Al final, el juego con la tecnologa siempre ha sido ver
cules tareas se pueden automatizar y cules se quedan con nosotros. Los primeros
imperios, por ejemplo, su gran innovacin fue hacer canales de agua para sus
plantaciones. As ya no necesitaban usar un tercio de su fuerza laboral en ir cada vez al
ro y traer agua. Imagnate, qu brutal: un tercio de la gente qued desempleada. Pero
qu hicieron con ellos? A la mitad los convirtieron en soldados y empezaron a dominar
a otros pueblos. A otros los hicieron arquitectos y constructores y crearon las ciudades y
templos ms grandes de la humanidad. Otros se hicieron artistas, otros empezaron a
escribir a escribir, huen, no tenan nada ms que hacer! Y es as como las
sociedades han avanzado, ahorrando tiempo y automatizando tareas. Si un robot
reconoce clulas de cncer, te ahorras al mdico. En San Francisco hay una farmacia
donde no hay ninguna persona trabajando: yo soy un robot, t me das una receta, yo te
mezclo un poco de este polvo, un poco de este otro, lo pongo en una caja y te lo doy.
Adems el robot sabe exactamente qu interaccin hay entre qu medicamentos, ms
que ningn farmacutico. Ms del 50% de los actuales empleos son digitalizables,
incluso escribir noticias rpidas, como sabrs. Y ya no hablamos de reemplazar a los
obreros, como en la revolucin industrial, sino tambin los trabajos de la clase ms
educada: mdicos, contadores, abogados, huen! Hay una aplicacin en el telfono que
te dice cunto ests obligado a pagar si te divorcias, segn los detalles de tu caso. Te
ahorraste mil dlares de abogado por pedirle ese estudio. Claro, es brutal. Pero esto ya
ha pasado antes y no fue el fin de la historia. Inventaron hues nuevas tan locas como
escribir, que antes nadie tena tiempo de pensar en eso.
Lo que s sera nuevo, y es el gran miedo cuando se habla de la era de la

singularidad que supuestamente viene, es que el robot pase a decidir por nosotros.
En el fondo, que nos ganen.
Claro, es la pregunta: si va a ser el Terminator contra nosotros. Mira, la singularidad
viene. O ya est ac. Trata de deshacerte de tu celular por un ao. Ya estamos
fusionados con esta tecnologa, como sociedad y como especie. Nuestra distribucin de
recursos ocurre bsicamente en la bolsa, y ac el 80% de las transacciones de la bolsa
son decididas por IA. El 99% de las decisiones de la red de electricidad son tomadas por
IA que localiza en tiempo real quin necesita energa. Y si t me dices mira, Martin,
recin descubrimos una especie donde un sistema que se llama IA distribuye el 80% de
los recursos y el 99% de la energa, yo dira bueno, IA es una parte inseparable de esta
sociedad. Y ya no se puede deshacer, no se puede desenredar. T podras irte a la
cordillera, dejar tu celular atrs y nunca ms tener interacciones digitales, pero ya no
seras parte de nuestra sociedad. Dejaras de evolucionar con nosotros. El punto aqu es
que la especie humana ya evoluciona en convergencia con la tecnologa, que en algunos
aspectos ya es mejor que nosotros no en todos. De nuevo, la pregunta es qu cosas
dejamos a la IA y qu cosas no.
Mientras eso lo decidamos nosotros y no ellos, si aprenden a pensar por su cuenta.

S. Y si me preguntas a m, digamos, filosficamente, lo que creo que est pasando es
que efectivamente estamos creando una supraespecie, otra especie superior. Pero la
verdad es que no tengo tanto miedo de eso.
Por qu no?
A ver Normalmente entendemos que la seleccin natural, cuando hay dos especies,
elige a una de las dos, la famosa supervivencia del ms apto, no? Pero tambin hay
ejemplos de simbiosis en que las dos especies se fusionan, y yo creo que en este caso las
dos especies se van a fusionar. Pero ya hablamos tanto que no s si vale la pena explicar
todo esto
Parece que s.
Quizs para entenderlo hay que mirar cmo funciona la vida, los sistemas vivos. Como
sabes, existen diferentes niveles de abstraccin: abajo tienes partculas subatmicas que
interactan para formar tomos; los tomos forman redes para crear molculas; las
molculas, para crear clulas, y las clulas se ponen en redes cada una con su
respectiva pega para crear organismos. Despus los organismos se ponen en redes para
crear sociedades. Y ahora, qu viene despus? Sociedades que se ponen en red a travs
de la tecnologa para crear algo superior. El punto es que cada uno de esos niveles cree
funcionar con sus propias leyes, y no saben que gracias a esas leyes se han formado
otras leyes que han creado un nivel superior. Mis clulas no saben que yo tengo
conciencia. Se encuentran y dicen mira, ah hay una bacteria, la atacas t o yo?.
Piensan que son bastante libres, no? Pero los grandes nmeros crean una estadstica
confiable de que esa bacteria va a ser atacada, y gracias a la estabilidad de esos
promedios es que mi sistema tiene la tranquilidad para crear lo que llamamos
conciencia. Y lo que creo que va a terminar haciendo la digitalizacin es convertirnos a
nosotros en clulas de un organismo mayor.
Cmo?
A medida que la IA empiece a organizarnos, a programar a la sociedad. Y va a poder
hacerlo porque si bien t y yo creemos ser muy distintos, el funcionamiento de la
sociedad, con los grandes nmeros, consigue promedios muy estables. Entonces este
organismo puede sobrevivir, hasta que yo me imagino que va a poder producir una
conciencia. Pero nosotros ni vamos a saber que esa conciencia existe. Por eso te digo
que no va a ser Terminator contra nosotros. Es un supraorganismo con el que nos
estamos fusionando, y la digitalizacin es como el aceite que nos une. La verdad es que
normalmente no hablo de esto en entrevistas pblicas, pero eso significa para m la
singularidad: estamos convergiendo con la tecnologa para crear un ente superior, que se
llama sociotecnologa, tecnosociedad o como lo quieras llamar.
Por qu no te gusta hablar de esto en entrevistas?

Porque es muy loco, no? Es muy profundo y hay gente que se preocupa ms de la
cuenta. Prefieren hablar del robot de Amazon que les mand un paquete equivocado.
Nos descoloca que nos hablen de un chip implementado en el cerebro, pero ya todos
usamos tecnologa para aumentar nuestras capacidades. No es en ningn caso el fin de
la humanidad, es la evolucin que sigue su camino. Y la manera en que esto ocurra va a
depender de nosotros. Entonces nos conviene entender que tenemos por delante una
gran responsabilidad, porque nosotros diseamos las instituciones que van a definir el
futuro de estas convergencias.
Qu es Big Data?
Todos formamos parte de ese gran crecimiento de datos
Debido al gran avance que existe da con da en las tecnologas de informacin, las
organizaciones se han tenido que enfrentar a nuevos desafos que les permitan analizar,
descubrir y entender ms all de lo que sus herramientas tradicionales reportan sobre su
informacin, al mismo tiempo que durante los ltimos aos el gran crecimiento de las
aplicaciones disponibles en internet (geo-referenciamiento, redes sociales, etc.) han sido
parte importante en las decisiones de negocio de las empresas. El presente artculo tiene
como propsito introducir al lector en el concepto de Big Data y describir algunas
caractersticas de los componentes principales que constituyen una solucin de este tipo.
10 Comentarios
Ricardo Barranco Fragoso, IT Specialist for Information Management, IBM Software

Group Mxico
18-06-2012
Tabla de contenidos
Desarrolle y despliegue su prxima app en Bluemix, la plataforma cloud de IBM.
Comience su
prueba gratuita
1. Introduccin
El primer cuestionamiento que posiblemente llegue a su mente en este momento es
Qu es Big Data y porqu se ha vuelto tan importante? pues bien, en trminos
generales podramos referirnos como a la tendencia en el avance de la tecnologa que ha
abierto las puertas hacia un nuevo enfoque de entendimiento y toma de decisiones, la
cual es utilizada para describir enormes cantidades de datos (estructurados, no
estructurados y semi estructurados) que tomara demasiado tiempo y sera muy costoso
cargarlos a un base de datos relacional para su anlisis. De tal manera que, el concepto
de Big Data aplica para toda aquella informacin que no puede ser procesada o
analizada utilizando procesos o herramientas tradicionales. Sin embargo, Big Data no se
refiere a alguna cantidad en especfico, ya que es usualmente utilizado cuando se habla
en trminos de petabytes y exabytes de datos. Entonces Cunto es demasiada
informacin de manera que sea elegible para ser procesada y analizada utilizando Big
Data? Analicemos primeramente en trminos de bytes:
Gigabyte = 109 = 1,000,000,000

Terabyte = 1012 = 1,000,000,000,000
Petabyte = 1015 = 1,000,000,000,000,000
Exabyte = 1018 = 1,000,000,000,000,000,000
Adems del gran volumen de informacin, esta existe en una gran variedad de datos
que pueden ser representados de diversas maneras en todo el mundo, por ejemplo de
dispositivos mviles, audio, video, sistemas GPS, incontables sensores digitales en
equipos industriales, automviles, medidores elctricos, veletas, anemmetros, etc., los
cuales pueden medir y comunicar el posicionamiento, movimiento, vibracin,
temperatura, humedad y hasta los cambios qumicos que sufre el aire, de tal forma que
las aplicaciones que analizan estos datos requieren que la velocidad de respuesta sea lo
demasiado rpida para lograr obtener la informacin correcta en el momento preciso.
Estas son las caractersticas principales de una oportunidad para Big Data.
Es importante entender que las bases de datos convencionales son una parte importante
y relevante para una solucin analtica. De hecho, se vuelve mucho ms vital cuando se
usa en conjunto con la plataforma de Big Data. Pensemos en nuestras manos izquierda y
derecha, cada una ofrece fortalezas individuales para cada tarea en especfico. Por
ejemplo, un beisbolista sabe que una de sus manos es mejor para lanzar la pelota y la
otra para atraparla; puede ser que cada mano intente hacer la actividad de la otra, mas
sin embargo, el resultado no ser el ms ptimo.
Volver arriba
2. De dnde proviene toda esa informacin?

Los seres humanos estamos creando y almacenando informacin constantemente y cada
vez ms en cantidades astronmicas. Se podra decir que si todos los bits y bytes de
datos del ltimo ao fueran guardados en CD's, se generara una gran torre desde la
Tierra hasta la Luna y de regreso.
Esta contribucin a la acumulacin masiva de datos la podemos encontrar en diversas

industrias, las compaas mantienen grandes cantidades de datos transaccionales,
reuniendo informacin acerca de sus clientes, proveedores, operaciones, etc., de la
misma manera sucede con el sector pblico. En muchos pases se administran enormes
bases de datos que contienen datos de censo de poblacin, registros mdicos, impuestos,
etc., y si a todo esto le aadimos transacciones financieras realizadas en lnea o por
dispositivos mviles, anlisis de redes sociales (en Twitter son cerca de 12 Terabytes de
tweets creados diariamente y Facebook almacena alrededor de 100 Petabytes de fotos y
videos), ubicacin geogrfica mediante coordenadas GPS, en otras palabras, todas
aquellas actividades que la mayora de nosotros realizamos varias veces al da con
nuestros "smartphones", estamos hablando de que se generan alrededor de 2.5
quintillones de bytes diariamente en el mundo.
1 quintilln = 10 30 = 1,000,000,000,000,000,000,000,000,000,000
De acuerdo con un estudio realizado por Cisco[1], entre el 2011 y el 2016 la cantidad de
trfico de datos mviles crecer a una tasa anual de 78%, as como el nmero de
dispositivos mviles conectados a Internet exceder el nmero de habitantes en el
planeta. Las naciones unidas proyectan que la poblacin mundial alcanzar los 7.5
billones para el 2016 de tal modo que habr cerca de 18.9 billones de dispositivos
conectados a la red a escala mundial, esto conllevara a que el trfico global de datos
mviles alcance 10.8 Exabytes mensuales o 130 Exabytes anuales. Este volumen de
trfico previsto para 2016 equivale a 33 billones de DVDs anuales o 813 cuatrillones de
mensajes de texto.
Pero no solamente somos los seres humanos quienes contribuimos a este crecimiento
enorme de informacin, existe tambin la comunicacin denominada mquina a
mquina (M2M machine-to-machine) cuyo valor en la creacin de grandes cantidades
de datos tambin es muy importante. Sensores digitales instalados en contenedores para
determinar la ruta generada durante una entrega de algn paquete y que esta
informacin sea enviada a las compaas de transportacin, sensores en medidores
elctricos para determinar el consumo de energa a intervalos regulares para que sea
enviada esta informacin a las compaas del sector energtico. Se estima que hay ms
de 30 millones de sensores interconectados en distintos sectores como automotriz,
transportacin, industrial, servicios, comercial, etc. y se espera que este nmero crezca
en un 30% anualmente.
Volver arriba
3. Qu tipos de datos debo explorar?

Muchas organizaciones se enfrentan a la pregunta sobre qu informacin es la que se
debe analizar?, sin embargo, el cuestionamiento debera estar enfocado hacia qu
problema es el que se est tratando de resolver?.[2]
Si bien sabemos que existe una amplia variedad de tipos de datos a analizar, una buena
clasificacin nos ayudara a entender mejor su representacin, aunque es muy probable
que estas categoras puedan extenderse con el avance tecnolgico.
Figura 1. Tipos de datos de Big Data[2]
1.- Web and Social Media: Incluye contenido web e informacin que es obtenida de las
redes sociales como Facebook, Twitter, LinkedIn, etc, blogs.
2.- Machine-to-Machine (M2M): M2M se refiere a las tecnologas que permiten

conectarse a otros dispositivos. M2M utiliza dispositivos como sensores o medidores
que capturan algn evento en particular (velocidad, temperatura, presin, variables
meteorolgicas, variables qumicas como la salinidad, etc.) los cuales transmiten a
travs de redes almbricas, inalmbricas o hbridas a otras aplicaciones que traducen
estos eventos en informacin significativa.
3.- Big Transaction Data: Incluye registros de facturacin, en telecomunicaciones

registros detallados de las llamadas (CDR), etc. Estos datos transaccionales estn
disponibles en formatos tanto semiestructurados como no estructurados.
4.- Biometrics: Informacin biomtrica en la que se incluye huellas digitales, escaneo de

la retina, reconocimiento facial, gentica, etc. En el rea de seguridad e inteligencia, los
datos biomtricos han sido informacin importante para las agencias de investigacin.
5.- Human Generated: Las personas generamos diversas cantidades de datos como la
informacin que guarda un call center al establecer una llamada telefnica, notas de
voz, correos electrnicos, documentos electrnicos, estudios mdicos, etc.
Volver arriba
4. Componentes de una plataforma Big Data

Las organizaciones han atacado esta problemtica desde diferentes ngulos. Todas esas
montaas de informacin han generado un costo potencial al no descubrir el gran valor
asociado. Desde luego, el ngulo correcto que actualmente tiene el liderazgo en
trminos de popularidad para analizar enormes cantidades de informacin es la
plataforma de cdigo abierto Hadoop.
Hadoop est inspirado en el proyecto de Google File System(GFS) y en el paradigma de

programacin MapReduce, el cual consiste en dividir en dos tareas (mapper reducer)
para manipular los datos distribuidos a nodos de un clster logrando un alto paralelismo
en el procesamiento.[5] Hadoop est compuesto de tres piezas: Hadoop Distributed File
System (HDFS), Hadoop MapReduce y Hadoop Common.
Hadoop Distributed File System(HDFS)

Los datos en el clster de Hadoop son divididos en pequeas piezas llamadas bloques y
distribuidas a travs del clster; de esta manera, las funciones map y reduce pueden ser
ejecutadas en pequeos subconjuntos y esto provee de la escalabilidad necesaria para el
procesamiento de grandes volmenes.
La siguiente figura ejemplifica como los bloques de datos son escritos hacia HDFS.
Observe que cada bloque es almacenado tres veces y al menos un bloque se almacena
en un diferente rack para lograr redundancia.
Figura 2. Ejemplo de HDFS
Hadoop MapReduce
MapReduce es el ncleo de Hadoop. El trmino MapReduce en realidad se refiere a dos
procesos separados que Hadoop ejecuta. El primer proceso map, el cual toma un
conjunto de datos y lo convierte en otro conjunto, donde los elementos individuales son
separados en tuplas (pares de llave/valor). El proceso reduce obtiene la salida de map
como datos de entrada y combina las tuplas en un conjunto ms pequeo de las mismas.
Una fase intermedia es la denominada Shuffle la cual obtiene las tuplas del proceso
map y determina que nodo procesar estos datos dirigiendo la salida a una tarea reduce
en especfico.
La siguiente figura ejemplifica un flujo de datos en un proceso sencillo de MapReduce.
Figura 3. Ejemplo de MapReduce
Hadoop Common
Hadoop Common Components son un conjunto de libreras que soportan varios subproyectos de
Hadoop.
Adems de estos tres componentes principales de Hadoop, existen otros proyectos relacionados los
cuales son definidos a continuacin:
Avro
Es un proyecto de Apache que provee servicios de serializacin. Cuando se guardan datos en un
archivo, el esquema que define ese archivo es guardado dentro del mismo; de este modo es ms
sencillo para cualquier aplicacin leerlo posteriormente puesto que el esquema esta definido dentro
del archivo.
Cassandra
Cassandra es una base de datos no relacional distribuida y basada en un modelo de
almacenamiento de <clave-valor>, desarrollada en Java. Permite grandes volmenes de datos en
forma distribuida. Twitter es una de las empresas que utiliza Cassandra dentro de su plataforma.
Chukwa
Diseado para la coleccin y anlisis a gran escala de "logs". Incluye un toolkit para desplegar los
resultados del anlisis y monitoreo.
Flume
Tal como su nombre lo indica, su tarea principal es dirigir los datos de una fuente hacia alguna otra
localidad, en este caso hacia el ambiente de Hadoop. Existen tres entidades principales: sources,
decorators y sinks. Un source es bsicamente cualquier fuente de datos, sink es el
destino de una operacin en especfico y un decorator es una operacin dentro del flujo de datos
que transforma esa informacin de alguna manera, como por ejemplo comprimir o descomprimir
los datos o alguna otra operacin en particular sobre los mismos.
HBase
Es una base de datos columnar (column-oriented database) que se ejecuta en HDFS. HBase no
soporta SQL, de hecho, HBase no es una base de datos relacional. Cada tabla contiene filas y
columnas como una base de datos relacional. HBase permite que muchos atributos sean agrupados
llamndolos familias de columnas, de tal manera que los elementos de una familia de columnas son
almacenados en un solo conjunto. Eso es distinto a las bases de datos relacionales orientadas a filas,
donde todas las columnas de una fila dada son almacenadas en conjunto. Facebook utiliza HBase en
su plataforma desde Noviembre del 2010.
Hive
Es una infraestructura de data warehouse que facilita administrar grandes conjuntos de datos que
se encuentran almacenados en un ambiente distribuido. Hive tiene definido un lenguaje similar a
SQL llamado Hive Query Language(HQL), estas sentencias HQL son separadas por un servicio de
Hive y son enviadas a procesos MapReduce ejecutados en el cluster de Hadoop.
El siguiente es un ejemplo en HQL para crear una tabla, cargar datos y obtener informacin de la
tabla utilizando Hive:
CREATE TABLE Tweets (from_user STRING, userid BIGINT, tweettext

STRING, retweets INT)
COMMENT 'This is the Twitter feed table'
STORED AS SEQUENCEFILE;
LOAD DATA INPATH 'hdfs://node/tweetdata' INTO TABLE TWEETS;
SELECT from_user, SUM(retweets)
FROM TWEETS
GROUP BY from_user;
Jaql
Fue donado por IBM a la comunidad de software libre. Query Language for Javascript Object
Notation (JSON) es un lenguaje funcional y declarativo que permite la explotacin de datos en
formato JSON diseado para procesar grandes volmenes de informacin. Para explotar el
paralelismo, Jaql reescribe los queries de alto nivel (cuando es necesario) en queries de "bajo nivel"
para distribuirlos como procesos MapReduce.
Internamente el motor de Jaql transforma el query en procesos map y reduce para reducir el
tiempo de desarrollo asociado en analizar los datos en Hadoop. Jaql posee de una infraestructura
flexible para administrar y analizar datos semiestructurados como XML, archivos CSV, archivos
planos, datos relacionales, etc.
Lucene
Es un proyecto de Apache bastante popular para realizar bsquedas sobre textos. Lucene provee de
libreras para indexacin y bsqueda de texto. Ha sido principalmente utilizado en la
implementacin de motores de bsqueda (aunque hay que considerar que no tiene funciones de
"crawling" ni anlisis de documentos HTML ya incorporadas). El concepto a nivel de arquitectura
de Lucene es simple, bsicamente los documentos (document) son dividos en campos de texto (fields)
y se genera un ndice sobre estos campos de texto. La indexacin es el componente clave de Lucene,
lo que le permite realizar bsquedas rpidamente independientemente del formato del archivo, ya
sean PDFs, documentos HTML, etc.
Oozie
Como pudo haber notado, existen varios procesos que son ejecutados en distintos momentos los
cuales necesitan ser orquestados para satisfacer las necesidades de tan complejo anlisis de
informacin.
Oozie es un proyecto de cdigo abierto que simplifica los flujos de trabajo y la coordinacin entre
cada uno de los procesos. Permite que el usuario pueda definir acciones y las dependencias entre
dichas acciones.
Un flujo de trabajo en Oozie es definido mediante un grafo acclico llamado Directed Acyclical
Graph (DAG), y es acclico puesto que no permite ciclos en el grafo; es decir, solo hay un punto de
entrada y de salida y todas las tareas y dependencias parten del punto inicial al punto final sin
puntos de retorno. Un ejemplo de un flujo de trabajo en Oozie se representa de la siguiente manera:
Figura 4. Flujo de trabajo en Oozie
Pig
Inicialmente desarrollado por Yahoo para permitir a los usuarios de Hadoop enfocarse
ms en analizar todos los conjuntos de datos y dedicar menos tiempo en construir los
programas MapReduce. Tal como su nombre lo indica al igual que cualquier cerdo que
come cualquier cosa, el lenguaje PigLatin fue diseado para manejar cualquier tipo de
dato y Pig es el ambiente de ejecucin donde estos programas son ejecutados, de
manera muy similar a la relacin entre la mquina virtual de Java (JVM) y una
aplicacin Java.
ZooKeeper
ZooKeeper es otro proyecto de cdigo abierto de Apache que provee de una
infraestructura centralizada y de servicios que pueden ser utilizados por aplicaciones
para asegurarse de que los procesos a travs de un cluster sean serializados o
sincronizados.
Internamente en ZooKeeper una aplicacin puede crear un archivo que se persiste en
memoria en los servidores ZooKeeper llamado znode. Este archivo znode puede ser
actualizado por cualquier nodo en el cluster, y cualquier nodo puede registrar que sea
informado de los cambios ocurridos en ese znode; es decir, un servidor puede ser
configurado para "vigilar" un znode en particular. De este modo, las aplicaciones
pueden sincronizar sus procesos a travs de un cluster distribuido actualizando su
estatus en cada znode, el cual informar al resto del cluster sobre el estatus
correspondiente de algn nodo en especfico.
Como podr observar, ms all de Hadoop, una plataforma de Big Data consiste de todo
un ecosistema de proyectos que en conjunto permiten simplificar, administrar, coordinar
y analizar grandes volmenes de informacin.
Volver arriba
5. Big Data y el campo de investigacin
Los cientficos e investigadores han analizado datos desde ya hace mucho tiempo, lo
que ahora representa el gran reto es la escala en la que estos son generados.
Esta explosin de "grandes datos" est transformando la manera en que se conduce una
investigacin adquiriendo habilidades en el uso de Big Data para resolver problemas
complejos relacionados con el descubrimiento cientfico, investigacin ambiental y
biomdica, educacin, salud, seguridad nacional, entre otros.
De entre los proyectos que se pueden mencionar donde se ha llevado a cabo el uso de
una solucin de Big Data se encuentran:
El Language, Interaction and Computation Laboratory (CLIC) en

conjunto con la Universidad de Trento en Italia, son un grupo de
investigadores cuyo inters es el estudio de la comunicacin verbal y
no verbal tanto con mtodos computacionales como cognitivos.
Lineberger Comprehensive Cancer Center - Bioinformatics Group

utiliza Hadoop y HBase para analizar datos producidos por los
investigadores de The Cancer Genome Atlas(TCGA) para soportar las
investigaciones relacionadas con el cncer.
El PSG College of Technology, India, analiza mltiples secuencias de

protenas para determinar los enlaces evolutivos y predecir
estructuras moleculares. La naturaleza del algoritmo y el paralelismo
computacional de Hadoop mejora la velocidad y exactitud de estas
secuencias.
La Universidad Distrital Francisco Jose de Caldas utiliza Hadoop para

apoyar su proyecto de investigacin relacionado con el sistema de
inteligencia territorial de la ciudad de Bogot.
La Universidad de Maryland es una de las seis universidades que

colaboran en la iniciativa acadmica de cmputo en la nube de
IBM/Google. Sus investigaciones incluyen proyectos en la lingistica
computacional (machine translation), modelado del lenguaje,
bioinformtica, anlisis de correo electrnico y procesamiento de
imgenes.
Para ms referencias en el uso de Hadoop puede dirigirse a :

http://wiki.apache.org/hadoop/PoweredBy
El Instituto de Tecnologa de la Universidad de Ontario (UOIT) junto con el Hospital de

Toronto utilizan una plataforma de big data para anlisis en tiempo real de IBM (IBM
InfoSphere Streams), la cual permite monitorear bebs prematuros en las salas de
neonatologa para determinar cualquier cambio en la presin arterial, temperatura,
alteraciones en los registros del electrocardiograma y electroencefalograma, etc., y as
detectar hasta 24 horas antes aquellas condiciones que puedan ser una amenaza en la
vida de los recin nacidos.
Los laboratorios Pacific Northwest National Labs(PNNL) utilizan de igual manera IBM
InfoSphere Streams para analizar eventos de medidores de su red elctrica y en tiempo
real verificar aquellas excepciones o fallas en los componentes de la red, logrando
comunicar casi de manera inmediata a los consumidores sobre el problema para
ayudarlos en administrar su consumo de energa elctrica.[3]
La esclerosis mltiple es una enfermedad del sistema nervioso que afecta al cerebro y la
mdula espinal. La comunidad de investigacin biomdica y la Universidad del Estado
de Nueva York (SUNY) estn aplicando anlisis con big data para contribuir en la
progresin de la investigacin, diagnstico, tratamiento, y quizs hasta la posible cura
de la esclerosis mltiple.[4]
Con la capacidad de generar toda esta informacin valiosa de diferentes sistemas, las
empresas y los gobiernos estn lidiando con el problema de analizar los datos para dos
propsitos importantes: ser capaces de detectar y responder a los acontecimientos
actuales de una manera oportuna, y para poder utilizar las predicciones del aprendizaje
histrico. Esta situacin requiere del anlisis tanto de datos en movimiento (datos
actuales) como de datos en reposo (datos histricos), que son representados a diferentes
y enormes volmenes, variedades y velocidades.
Volver arriba
6. Conclusiones
La naturaleza de la informacin hoy es diferente a la informacin en el pasado. Debido
a la abundacia de sensores, micrfonos, cmaras, escneres mdicos, imgenes, etc. en
nuestras vidas, los datos generados a partir de estos elementos sern dentro de poco el
segmento ms grande de toda la informacin disponible.
El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les podran
haber tomado aos en descubrir por si mismos sin el uso de estas herramientas, debido a
la velocidad del anlisis, es posible que el analista de datos pueda cambiar sus ideas
basndose en el resultado obtenido y retrabajar el procedimiento una y otra vez hasta
encontrar el verdadero valor al que se est tratando de llegar.
Como se pudo notar en el presente artculo, implementar una solucin alrededor de Big
Data implica de la integracin de diversos componentes y proyectos que en conjunto
forman el ecosistema necesario para analizar grandes cantidades de datos.
Sin una plataforma de Big Data se necesitara que desarrollar adicionalmente cdigo
que permita administrar cada uno de esos componentes como por ejemplo: manejo de
eventos, conectividad, alta disponibilidad, seguridad, optimizacin y desempeo,
depuracin, monitoreo, administracin de las aplicaciones, SQL y scripts
personalizados.
IBM cuenta con una plataforma de Big Data basada en dos productos principales: IBM
InfoSphere BigInsights e IBM InfoSphere Streams, adems de su reciente
adquisicin Vivisimo, los cuales estn diseados para resolver este tipo de problemas.
Estas herramientas estn construidas para ser ejecutadas en sistemas distribuidos a gran
escala diseados para tratar con grandes volmenes de informacin, analizando tanto
datos estructurados como no estructurados.
Dentro de la plataforma de IBM existen ms de 100 aplicaciones de ejemplo
recolectadas del trabajo que se ha realizado internamente en la empresa para casos de
uso e industrias especficas. Estos aplicativos estn implementados dentro de la solucin
de manera que las organizaciones puedan dedicar su tiempo a analizar y no a
implementar.

Martin Hilbert

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Martin Hilbert

Cargado por

Copyright:

Formatos disponibles

Martin Hilbert, experto en redes

digitales: Obama y Trump usaron el Big

Y a qu ritmo est creciendo?

O sea, ocho mil pilas de libros que llegan al sol.

Parece que la pregunta existencial ms importante va a ser cmo interpretamos

Y la otra pregunta existencial, qu tan espiados estamos?

Qu cosas de nosotros se pueden saber de un momento a otro?

Lo que uno nunca lee.

Slo conociendo la frecuencia y duracin con que uso mi celular?

Y en el caso de las empresas de Internet que nos prestan servicios gratuitos, qu

Entiendo que algunos estudios ya han logrado predecir un montn de cosas a

Qu hizo con eso?

Con avisos publicitarios?

En un artculo explicabas que tambin los call center de Estados Unidos te

Y ms rezagada an queda la democracia, incapaz de mediar entre tanta

Obligados a pensarla de nuevo

Si es que tambin se democratiza la capacidad de usarlos.

En Silicon Valley estn muy locos?

Lo que s sera nuevo, y es el gran miedo cuando se habla de la era de la

Mientras eso lo decidamos nosotros y no ellos, si aprenden a pensar por su cuenta.

Por qu no te gusta hablar de esto en entrevistas?

Todos formamos parte de ese gran crecimiento de datos

Ricardo Barranco Fragoso, IT Specialist for Information Management, IBM Software

Desarrolle y despliegue su prxima app en Bluemix, la plataforma cloud de IBM.

Gigabyte = 109 = 1,000,000,000

2. De dnde proviene toda esa informacin?

Esta contribucin a la acumulacin masiva de datos la podemos encontrar en diversas

3. Qu tipos de datos debo explorar?

2.- Machine-to-Machine (M2M): M2M se refiere a las tecnologas que permiten

3.- Big Transaction Data: Incluye registros de facturacin, en telecomunicaciones

4.- Biometrics: Informacin biomtrica en la que se incluye huellas digitales, escaneo de

4. Componentes de una plataforma Big Data

Hadoop est inspirado en el proyecto de Google File System(GFS) y en el paradigma de

Hadoop Distributed File System(HDFS)

Figura 2. Ejemplo de HDFS

La siguiente figura ejemplifica un flujo de datos en un proceso sencillo de MapReduce.

Figura 3. Ejemplo de MapReduce

CREATE TABLE Tweets (from_user STRING, userid BIGINT, tweettext

Figura 4. Flujo de trabajo en Oozie

El Language, Interaction and Computation Laboratory (CLIC) en

Lineberger Comprehensive Cancer Center - Bioinformatics Group

El PSG College of Technology, India, analiza mltiples secuencias de

La Universidad Distrital Francisco Jose de Caldas utiliza Hadoop para

La Universidad de Maryland es una de las seis universidades que

Para ms referencias en el uso de Hadoop puede dirigirse a :

El Instituto de Tecnologa de la Universidad de Ontario (UOIT) junto con el Hospital de

También podría gustarte