Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Comprtelo Tuitalo
Lo conocen en la academia de las TICs por haber creado el primer estudio que estim
cunta informacin hay en el mundo, cifras que ac comenta en un castellano aliado
con modismos chilenos, tecnicismos gringos y erres alemanas. Martin Hilbert (39),
Doctor en Ciencias Sociales y PhD en Comunicacin, es alemn, pero vivi largos aos
en Chile como funcionario de la Cepal. Hoy trabaja en la Universidad de California, es
el asesor tecnolgico de la Biblioteca del Congreso de Estados Unidos y vive a cuarenta
minutos de Silicon Valley, donde un futuro inevitable toma forma. En esta entrevista, no
apta para amantes de la vida retirada, explica cmo el Big Data permite a la informacin
interpretarse a s misma y adelantarse a nuestras intenciones, cunto saben las grandes
empresas de nosotros, y lo que ms le preocupa: lo fcil que est siendo convertir la
democracia en una dictadura de la informacin, haciendo de cada ciudadano una
burbuja distinta. Tambin habla sobre la posibilidad de que la inteligencia artificial
llegue a generar una conciencia superior. Cree que eso va a ocurrir, pero no hay que
tener miedo: No va a ser Terminator contra nosotros.
Cunta informacin hay en el mundo?
La ltima vez que actualic este estudio, hace dos aos, haba 5 zetabytes. Un ZB es
un 1 con 21 ceros, lo cual no te dir mucho. Pero si t pones esta informacin en libros,
convirtiendo las imgenes y todo eso a su equivalente en letras, podras hacer 4500 pilas
de libros que lleguen hasta el sol. O sea, hay mucha informacin.
Qu es el Deep Learning?
Es la manera como se hace la IA hoy en da. Son redes neuronales que funcionan de
manera muy similar al cerebro, con muchas jerarquas. Todo esto que hacen Apple y
Google y todas las Siri en el telfono, todo usa Deep Learning. Es una IA sper
poderosa que descubrimos hace cinco aos y ya todo el mundo la usa, porque es muy
superior a todo lo que habamos encontrado.
Cuentas que en frica el celular hizo lo que nunca pudo hacer el certificado de
nacimiento. La huella de que una persona existe es su telfono.
Claro, es sper poderoso. Es tu verdadera huella digital. Y frica es el caso extremo,
pero piensa en Amrica Latina, donde hay tanto orgullo por los censos. El censo de
Chile ahora fue un desastre y era una tragedia, no? Pero con los datos de tu celular, si
uso solamente lo que se llama metadata, o sea sin escuchar tus conversaciones ni saber
con quin hablas, sino slo con qu frecuencia y con qu duracin usas tu celular, con
eso yo puedo hacer ingeniera reversa y reproducir el 85% de tus resultados de un
censo: si eres hombre o mujer, cul es tu rango de ingresos, si tienes nios, si ests
casado, tu origen tnico
Tambin las empresas telefnicas, que uno supone que slo nos cobran el plan,
hacen buena plata con nuestros datos, no?
Claro. Por ejemplo, Smart Steps es la empresa de Telefnica que vende los datos de la
compaa. Si t tienes Movistar, tus datos estn ah vendidos.
A quin le sirven?
A mucha gente! Si t quieres abrir una tienda de corbatas en una estacin de metro, te
vale mucho saber cuntos hombres caminan en cada salida del metro, entonces compras
estos datos de Telefnica. Y tambin los puedes usar en tiempo real: saber a qu hora
pasa la gente, e incluso si se detiene o no a ver el anuncio de oferta que pusiste afuera. Y
lo ms impresionante es que esto convirti a las ciencias sociales, de las que siempre se
burlaron, en la ciencia ms rica en datos. Antes tenas que hasta negociar con
diplomticos para que te prestaran una base de datos de cien filas por cien columnas. Y
en las universidades hacan experimentos con 15 alumnos de pregrado, que necesitaban
crditos extra para pasar el ramo, todos blancos, todos de 18 aos, y decan miren, as
funciona la psicologa humana. De adnde! Nosotros nunca tuvimos datos, y por eso
nunca funcionaban las polticas pblicas. Y de la noche a la maana, el 95% de los
sujetos que estudiamos pas a tener un sensor de s mismo 24 horas al da. Los bilogos
siempre dijeron eso no es ciencia, no tienen datos. Pero ellos no saben dnde estn las
ballenas en el mar. Hoy nosotros s sabemos dnde estn las personas, pero tambin
sabemos qu compran, qu comen, cundo duermen, cules son sus amigos, sus ideas
polticas, su vida social. Se puede abusar tambin, como Obama y Trump lo hicieron en
sus campaas, como Hillary no lo hizo y por eso perdi. Pero el gran cambio es que
estamos conociendo a la sociedad como nunca antes y podemos hacer predicciones con
un nivel cientfico. Lo de antes era arte, no era ciencia!
TRUMP TE CONOCE
Y qu hizo Obama?
Obama fue como el pionero en esto. En la campaa de 2012, para su reeleccin,
invirti en esto mil millones de dlares, mucho ms que en comerciales de TV. Y con
eso contrat a un grupo de cuarenta nerds, de Twitter, de Google, de Facebook, de
Craigslist, tres profesionales de pker, otro que trabaja con clulas madres, en fin. A
esos cuarenta nerds los puso en un subterrneo, les dio mil millones de dlares y un
nmero para el servicio de pizza, no? Y ah en el subterrneo crearon los 16 millones
de perfiles que les interesaban, los votantes indecisos. Sacaron datos de todos lados.
Incluso tuvieron acceso a las Setup-Boxes, lo que sera el DirectTV en Chile, que
registra cmo t ves televisin. Si tienen acceso a eso, ya saben lo que te interesa, y
empezaron a llevar comerciales individualizados. Lo ms delicado es que no slo
pueden mandarte el mensaje como ms te va a gustar, tambin pueden mostrarte slo
aquello con lo que vas a estar de acuerdo. Si Obama tiene sesenta compromisos de
campaa, puede que 58 te parezcan mal, pero al menos con dos vas estar de acuerdo.
Digamos que ests a favor del desarrollo verde y a favor del aborto. Bueno, empezaron
a mostrarte en Facebook slo estos dos mensajes.
Y los Estados, estn sabiendo aprovechar el Big Data para las polticas pblicas?
No, estn muy atrs todava. Pero tienen una oportunidad muy grande. Se estima que
el Estado posee alrededor de un tercio de los datos de un pas, lo que es mucho. Acaso
tiene un tercio del poder productivo? Ni loco. El gobierno sabe todo lo que pasa en los
colegios, en los hospitales, en los servicios de impuestos, cunta informacin hay ah!
Se puede aprovechar mucho ms para polticas sociales y econmicas, sobre todo en
Amrica Latina. Y lo segundo es poner la informacin que es pblica a disposicin de la
sociedad, lo que se llama el Open Data. Pero ah estamos an ms atrasados, incluso
ac. Por ejemplo, a m me nombraron Chair of Technology de la Biblioteca del
Congreso, que en EE.UU. siempre fue LA institucin de la informacin. Ellos mismos
me invitaron porque se dan cuenta de que perdieron el tren y Google les rob el show en
diez aos. Y cuando voy all, veo que todava podran recolectar mucha ms
informacin, y hacerla pblica. Los mapas el gobierno tiene un montn de mapas!
No necesitamos Google Maps, los militares tienen todos los mapas que necesitas. Por
qu no los hacen disponibles? Los precios de terrenos, qu tipo de terrenos hay para qu
tipo de agricultura, quin es el dueo del terreno, todo esto el gobierno lo tiene y
socializarlo podra ser muy productivo. Pero es una buena noticia: si el insumo de esta
nueva economa son los datos y el Estado tiene un tercio de ellos, los puede usar para
democratizar la economa.
EL FUTURO ARTIFICIAL
Algo que cuesta asimilar es que los datos, al crecer tanto, ya se explican a s
mismos, descubren solos sus relaciones causa-efecto. Como el traductor de Google,
que se peg el gran salto cuando le quitaron las reglas de traduccin y empez
simplemente a comparar datos.
Y con eso, adems, ya puede traducir entre dos idiomas aunque nadie en el mundo
hable esos dos idiomas. Te cuento un caso. Te acuerdas de ese juego para Atari y PC,
parecido al pimpn, en que tenas que mover una barrita hacia los lados para achuntarle
a una pelota que rebotaba arriba en unos bloques? Y sacabas puntos al ir destruyendo
esos bloques.
S.
Bueno. Al DeepMind, un programa de IA que usa el Deep Learning, lo pusieron frente
a ese juego y le dijeron tienes que ganar puntos. Pero no le dijeron cmo se ganan los
puntos. Ni siquiera le dijeron vas a ver una barrita, una pelota y unos bloques arriba.
Solamente le dieron la capacidad de reconocer pixeles. A los diez minutos, el DeepMind
casi no agarraba la pelota, porque no entenda frente a qu situacin estaba. Despus de
dos horas, jugaba al nivel de un experto. Y a las cuatro horas, mejor que cualquier ser
humano. Pero no slo por su precisin tcnica, sino porque descubri una estrategia
para ganar que poca gente descubre. Es decir, slo correlacionando movimientos de
pixeles y puntos ganados por azar, lleg a innovar y ser ms creativo que la mayora de
los humanos. Es lo mismo que hace la IA con el ajedrez. Se supona que Go era el juego
en que nunca iba a pasar a los humanos, muchsimo ms complejo que el ajedrez.
Bueno, DeepMind le gan hace medio ao al campen de Go. Entonces s, la
informacin se autointerpreta y son mejores que nosotros.
Es cierto que las grandes compaas ya toman decisiones sin saber por qu las
toman? Slo porque la IA ve los datos y les dicen hagan esto.
Claro, y est perfecto. Adems, las relaciones de causalidad, muy filosficamente,
nunca las podemos conocer. Como deca Popper, slo podemos descartar causas: t no
puedes saber si realmente X caus Y, slo puedes comprobar que Z no causa Y. Pero
estas correlaciones nos sirven para explicar y predecir. Ahora, si t cambias el sistema
que produjo estos datos, ah te puedes equivocar muchas veces. Pero ese ya es otro
problema.
Pero tambin sera un problema si, por ejemplo, llegramos a meter preso a
alguien porque su conducta en Facebook, segn un programa, predice que es un
potencial asesino.
S, pero esto tambin lo hacen las personas. Si un siclogo dice que eres un peligro
para la sociedad, tambin te pueden encerrar. Y la verdad es que la IA es muchas veces
ms exacta que un psiclogo. Al final, el juego con la tecnologa siempre ha sido ver
cules tareas se pueden automatizar y cules se quedan con nosotros. Los primeros
imperios, por ejemplo, su gran innovacin fue hacer canales de agua para sus
plantaciones. As ya no necesitaban usar un tercio de su fuerza laboral en ir cada vez al
ro y traer agua. Imagnate, qu brutal: un tercio de la gente qued desempleada. Pero
qu hicieron con ellos? A la mitad los convirtieron en soldados y empezaron a dominar
a otros pueblos. A otros los hicieron arquitectos y constructores y crearon las ciudades y
templos ms grandes de la humanidad. Otros se hicieron artistas, otros empezaron a
escribir a escribir, huen, no tenan nada ms que hacer! Y es as como las
sociedades han avanzado, ahorrando tiempo y automatizando tareas. Si un robot
reconoce clulas de cncer, te ahorras al mdico. En San Francisco hay una farmacia
donde no hay ninguna persona trabajando: yo soy un robot, t me das una receta, yo te
mezclo un poco de este polvo, un poco de este otro, lo pongo en una caja y te lo doy.
Adems el robot sabe exactamente qu interaccin hay entre qu medicamentos, ms
que ningn farmacutico. Ms del 50% de los actuales empleos son digitalizables,
incluso escribir noticias rpidas, como sabrs. Y ya no hablamos de reemplazar a los
obreros, como en la revolucin industrial, sino tambin los trabajos de la clase ms
educada: mdicos, contadores, abogados, huen! Hay una aplicacin en el telfono que
te dice cunto ests obligado a pagar si te divorcias, segn los detalles de tu caso. Te
ahorraste mil dlares de abogado por pedirle ese estudio. Claro, es brutal. Pero esto ya
ha pasado antes y no fue el fin de la historia. Inventaron hues nuevas tan locas como
escribir, que antes nadie tena tiempo de pensar en eso.
Por qu no?
A ver Normalmente entendemos que la seleccin natural, cuando hay dos especies,
elige a una de las dos, la famosa supervivencia del ms apto, no? Pero tambin hay
ejemplos de simbiosis en que las dos especies se fusionan, y yo creo que en este caso las
dos especies se van a fusionar. Pero ya hablamos tanto que no s si vale la pena explicar
todo esto
Parece que s.
Quizs para entenderlo hay que mirar cmo funciona la vida, los sistemas vivos. Como
sabes, existen diferentes niveles de abstraccin: abajo tienes partculas subatmicas que
interactan para formar tomos; los tomos forman redes para crear molculas; las
molculas, para crear clulas, y las clulas se ponen en redes cada una con su
respectiva pega para crear organismos. Despus los organismos se ponen en redes para
crear sociedades. Y ahora, qu viene despus? Sociedades que se ponen en red a travs
de la tecnologa para crear algo superior. El punto es que cada uno de esos niveles cree
funcionar con sus propias leyes, y no saben que gracias a esas leyes se han formado
otras leyes que han creado un nivel superior. Mis clulas no saben que yo tengo
conciencia. Se encuentran y dicen mira, ah hay una bacteria, la atacas t o yo?.
Piensan que son bastante libres, no? Pero los grandes nmeros crean una estadstica
confiable de que esa bacteria va a ser atacada, y gracias a la estabilidad de esos
promedios es que mi sistema tiene la tranquilidad para crear lo que llamamos
conciencia. Y lo que creo que va a terminar haciendo la digitalizacin es convertirnos a
nosotros en clulas de un organismo mayor.
Cmo?
A medida que la IA empiece a organizarnos, a programar a la sociedad. Y va a poder
hacerlo porque si bien t y yo creemos ser muy distintos, el funcionamiento de la
sociedad, con los grandes nmeros, consigue promedios muy estables. Entonces este
organismo puede sobrevivir, hasta que yo me imagino que va a poder producir una
conciencia. Pero nosotros ni vamos a saber que esa conciencia existe. Por eso te digo
que no va a ser Terminator contra nosotros. Es un supraorganismo con el que nos
estamos fusionando, y la digitalizacin es como el aceite que nos une. La verdad es que
normalmente no hablo de esto en entrevistas pblicas, pero eso significa para m la
singularidad: estamos convergiendo con la tecnologa para crear un ente superior, que se
llama sociotecnologa, tecnosociedad o como lo quieras llamar.
Qu es Big Data?
Debido al gran avance que existe da con da en las tecnologas de informacin, las
organizaciones se han tenido que enfrentar a nuevos desafos que les permitan analizar,
descubrir y entender ms all de lo que sus herramientas tradicionales reportan sobre su
informacin, al mismo tiempo que durante los ltimos aos el gran crecimiento de las
aplicaciones disponibles en internet (geo-referenciamiento, redes sociales, etc.) han sido
parte importante en las decisiones de negocio de las empresas. El presente artculo tiene
como propsito introducir al lector en el concepto de Big Data y describir algunas
caractersticas de los componentes principales que constituyen una solucin de este tipo.
10 Comentarios
18-06-2012
Tabla de contenidos
Comience su
prueba gratuita
1. Introduccin
El primer cuestionamiento que posiblemente llegue a su mente en este momento es
Qu es Big Data y porqu se ha vuelto tan importante? pues bien, en trminos
generales podramos referirnos como a la tendencia en el avance de la tecnologa que ha
abierto las puertas hacia un nuevo enfoque de entendimiento y toma de decisiones, la
cual es utilizada para describir enormes cantidades de datos (estructurados, no
estructurados y semi estructurados) que tomara demasiado tiempo y sera muy costoso
cargarlos a un base de datos relacional para su anlisis. De tal manera que, el concepto
de Big Data aplica para toda aquella informacin que no puede ser procesada o
analizada utilizando procesos o herramientas tradicionales. Sin embargo, Big Data no se
refiere a alguna cantidad en especfico, ya que es usualmente utilizado cuando se habla
en trminos de petabytes y exabytes de datos. Entonces Cunto es demasiada
informacin de manera que sea elegible para ser procesada y analizada utilizando Big
Data? Analicemos primeramente en trminos de bytes:
Adems del gran volumen de informacin, esta existe en una gran variedad de datos
que pueden ser representados de diversas maneras en todo el mundo, por ejemplo de
dispositivos mviles, audio, video, sistemas GPS, incontables sensores digitales en
equipos industriales, automviles, medidores elctricos, veletas, anemmetros, etc., los
cuales pueden medir y comunicar el posicionamiento, movimiento, vibracin,
temperatura, humedad y hasta los cambios qumicos que sufre el aire, de tal forma que
las aplicaciones que analizan estos datos requieren que la velocidad de respuesta sea lo
demasiado rpida para lograr obtener la informacin correcta en el momento preciso.
Estas son las caractersticas principales de una oportunidad para Big Data.
Es importante entender que las bases de datos convencionales son una parte importante
y relevante para una solucin analtica. De hecho, se vuelve mucho ms vital cuando se
usa en conjunto con la plataforma de Big Data. Pensemos en nuestras manos izquierda y
derecha, cada una ofrece fortalezas individuales para cada tarea en especfico. Por
ejemplo, un beisbolista sabe que una de sus manos es mejor para lanzar la pelota y la
otra para atraparla; puede ser que cada mano intente hacer la actividad de la otra, mas
sin embargo, el resultado no ser el ms ptimo.
Volver arriba
1 quintilln = 10 30 = 1,000,000,000,000,000,000,000,000,000,000
De acuerdo con un estudio realizado por Cisco[1], entre el 2011 y el 2016 la cantidad de
trfico de datos mviles crecer a una tasa anual de 78%, as como el nmero de
dispositivos mviles conectados a Internet exceder el nmero de habitantes en el
planeta. Las naciones unidas proyectan que la poblacin mundial alcanzar los 7.5
billones para el 2016 de tal modo que habr cerca de 18.9 billones de dispositivos
conectados a la red a escala mundial, esto conllevara a que el trfico global de datos
mviles alcance 10.8 Exabytes mensuales o 130 Exabytes anuales. Este volumen de
trfico previsto para 2016 equivale a 33 billones de DVDs anuales o 813 cuatrillones de
mensajes de texto.
Pero no solamente somos los seres humanos quienes contribuimos a este crecimiento
enorme de informacin, existe tambin la comunicacin denominada mquina a
mquina (M2M machine-to-machine) cuyo valor en la creacin de grandes cantidades
de datos tambin es muy importante. Sensores digitales instalados en contenedores para
determinar la ruta generada durante una entrega de algn paquete y que esta
informacin sea enviada a las compaas de transportacin, sensores en medidores
elctricos para determinar el consumo de energa a intervalos regulares para que sea
enviada esta informacin a las compaas del sector energtico. Se estima que hay ms
de 30 millones de sensores interconectados en distintos sectores como automotriz,
transportacin, industrial, servicios, comercial, etc. y se espera que este nmero crezca
en un 30% anualmente.
Volver arriba
Si bien sabemos que existe una amplia variedad de tipos de datos a analizar, una buena
clasificacin nos ayudara a entender mejor su representacin, aunque es muy probable
que estas categoras puedan extenderse con el avance tecnolgico.
Figura 1. Tipos de datos de Big Data[2]
1.- Web and Social Media: Incluye contenido web e informacin que es obtenida de las
redes sociales como Facebook, Twitter, LinkedIn, etc, blogs.
5.- Human Generated: Las personas generamos diversas cantidades de datos como la
informacin que guarda un call center al establecer una llamada telefnica, notas de
voz, correos electrnicos, documentos electrnicos, estudios mdicos, etc.
Volver arriba
La siguiente figura ejemplifica como los bloques de datos son escritos hacia HDFS.
Observe que cada bloque es almacenado tres veces y al menos un bloque se almacena
en un diferente rack para lograr redundancia.
Hadoop MapReduce
MapReduce es el ncleo de Hadoop. El trmino MapReduce en realidad se refiere a dos
procesos separados que Hadoop ejecuta. El primer proceso map, el cual toma un
conjunto de datos y lo convierte en otro conjunto, donde los elementos individuales son
separados en tuplas (pares de llave/valor). El proceso reduce obtiene la salida de map
como datos de entrada y combina las tuplas en un conjunto ms pequeo de las mismas.
Una fase intermedia es la denominada Shuffle la cual obtiene las tuplas del proceso
map y determina que nodo procesar estos datos dirigiendo la salida a una tarea reduce
en especfico.
Hadoop Common
Hadoop Common Components son un conjunto de libreras que soportan varios subproyectos de
Hadoop.
Adems de estos tres componentes principales de Hadoop, existen otros proyectos relacionados los
cuales son definidos a continuacin:
Avro
Es un proyecto de Apache que provee servicios de serializacin. Cuando se guardan datos en un
archivo, el esquema que define ese archivo es guardado dentro del mismo; de este modo es ms
sencillo para cualquier aplicacin leerlo posteriormente puesto que el esquema esta definido dentro
del archivo.
Cassandra
Cassandra es una base de datos no relacional distribuida y basada en un modelo de
almacenamiento de <clave-valor>, desarrollada en Java. Permite grandes volmenes de datos en
forma distribuida. Twitter es una de las empresas que utiliza Cassandra dentro de su plataforma.
Chukwa
Diseado para la coleccin y anlisis a gran escala de "logs". Incluye un toolkit para desplegar los
resultados del anlisis y monitoreo.
Flume
Tal como su nombre lo indica, su tarea principal es dirigir los datos de una fuente hacia alguna otra
localidad, en este caso hacia el ambiente de Hadoop. Existen tres entidades principales: sources,
decorators y sinks. Un source es bsicamente cualquier fuente de datos, sink es el
destino de una operacin en especfico y un decorator es una operacin dentro del flujo de datos
que transforma esa informacin de alguna manera, como por ejemplo comprimir o descomprimir
los datos o alguna otra operacin en particular sobre los mismos.
HBase
Es una base de datos columnar (column-oriented database) que se ejecuta en HDFS. HBase no
soporta SQL, de hecho, HBase no es una base de datos relacional. Cada tabla contiene filas y
columnas como una base de datos relacional. HBase permite que muchos atributos sean agrupados
llamndolos familias de columnas, de tal manera que los elementos de una familia de columnas son
almacenados en un solo conjunto. Eso es distinto a las bases de datos relacionales orientadas a filas,
donde todas las columnas de una fila dada son almacenadas en conjunto. Facebook utiliza HBase en
su plataforma desde Noviembre del 2010.
Hive
Es una infraestructura de data warehouse que facilita administrar grandes conjuntos de datos que
se encuentran almacenados en un ambiente distribuido. Hive tiene definido un lenguaje similar a
SQL llamado Hive Query Language(HQL), estas sentencias HQL son separadas por un servicio de
Hive y son enviadas a procesos MapReduce ejecutados en el cluster de Hadoop.
El siguiente es un ejemplo en HQL para crear una tabla, cargar datos y obtener informacin de la
tabla utilizando Hive:
Internamente el motor de Jaql transforma el query en procesos map y reduce para reducir el
tiempo de desarrollo asociado en analizar los datos en Hadoop. Jaql posee de una infraestructura
flexible para administrar y analizar datos semiestructurados como XML, archivos CSV, archivos
planos, datos relacionales, etc.
Lucene
Es un proyecto de Apache bastante popular para realizar bsquedas sobre textos. Lucene provee de
libreras para indexacin y bsqueda de texto. Ha sido principalmente utilizado en la
implementacin de motores de bsqueda (aunque hay que considerar que no tiene funciones de
"crawling" ni anlisis de documentos HTML ya incorporadas). El concepto a nivel de arquitectura
de Lucene es simple, bsicamente los documentos (document) son dividos en campos de texto (fields)
y se genera un ndice sobre estos campos de texto. La indexacin es el componente clave de Lucene,
lo que le permite realizar bsquedas rpidamente independientemente del formato del archivo, ya
sean PDFs, documentos HTML, etc.
Oozie
Como pudo haber notado, existen varios procesos que son ejecutados en distintos momentos los
cuales necesitan ser orquestados para satisfacer las necesidades de tan complejo anlisis de
informacin.
Oozie es un proyecto de cdigo abierto que simplifica los flujos de trabajo y la coordinacin entre
cada uno de los procesos. Permite que el usuario pueda definir acciones y las dependencias entre
dichas acciones.
Un flujo de trabajo en Oozie es definido mediante un grafo acclico llamado Directed Acyclical
Graph (DAG), y es acclico puesto que no permite ciclos en el grafo; es decir, solo hay un punto de
entrada y de salida y todas las tareas y dependencias parten del punto inicial al punto final sin
puntos de retorno. Un ejemplo de un flujo de trabajo en Oozie se representa de la siguiente manera:
Pig
Inicialmente desarrollado por Yahoo para permitir a los usuarios de Hadoop enfocarse
ms en analizar todos los conjuntos de datos y dedicar menos tiempo en construir los
programas MapReduce. Tal como su nombre lo indica al igual que cualquier cerdo que
come cualquier cosa, el lenguaje PigLatin fue diseado para manejar cualquier tipo de
dato y Pig es el ambiente de ejecucin donde estos programas son ejecutados, de
manera muy similar a la relacin entre la mquina virtual de Java (JVM) y una
aplicacin Java.
ZooKeeper
ZooKeeper es otro proyecto de cdigo abierto de Apache que provee de una
infraestructura centralizada y de servicios que pueden ser utilizados por aplicaciones
para asegurarse de que los procesos a travs de un cluster sean serializados o
sincronizados.
Internamente en ZooKeeper una aplicacin puede crear un archivo que se persiste en
memoria en los servidores ZooKeeper llamado znode. Este archivo znode puede ser
actualizado por cualquier nodo en el cluster, y cualquier nodo puede registrar que sea
informado de los cambios ocurridos en ese znode; es decir, un servidor puede ser
configurado para "vigilar" un znode en particular. De este modo, las aplicaciones
pueden sincronizar sus procesos a travs de un cluster distribuido actualizando su
estatus en cada znode, el cual informar al resto del cluster sobre el estatus
correspondiente de algn nodo en especfico.
Como podr observar, ms all de Hadoop, una plataforma de Big Data consiste de todo
un ecosistema de proyectos que en conjunto permiten simplificar, administrar, coordinar
y analizar grandes volmenes de informacin.
Volver arriba
5. Big Data y el campo de investigacin
Los cientficos e investigadores han analizado datos desde ya hace mucho tiempo, lo
que ahora representa el gran reto es la escala en la que estos son generados.
Esta explosin de "grandes datos" est transformando la manera en que se conduce una
investigacin adquiriendo habilidades en el uso de Big Data para resolver problemas
complejos relacionados con el descubrimiento cientfico, investigacin ambiental y
biomdica, educacin, salud, seguridad nacional, entre otros.
De entre los proyectos que se pueden mencionar donde se ha llevado a cabo el uso de
una solucin de Big Data se encuentran:
La esclerosis mltiple es una enfermedad del sistema nervioso que afecta al cerebro y la
mdula espinal. La comunidad de investigacin biomdica y la Universidad del Estado
de Nueva York (SUNY) estn aplicando anlisis con big data para contribuir en la
progresin de la investigacin, diagnstico, tratamiento, y quizs hasta la posible cura
de la esclerosis mltiple.[4]
Con la capacidad de generar toda esta informacin valiosa de diferentes sistemas, las
empresas y los gobiernos estn lidiando con el problema de analizar los datos para dos
propsitos importantes: ser capaces de detectar y responder a los acontecimientos
actuales de una manera oportuna, y para poder utilizar las predicciones del aprendizaje
histrico. Esta situacin requiere del anlisis tanto de datos en movimiento (datos
actuales) como de datos en reposo (datos histricos), que son representados a diferentes
y enormes volmenes, variedades y velocidades.
Volver arriba
6. Conclusiones
La naturaleza de la informacin hoy es diferente a la informacin en el pasado. Debido
a la abundacia de sensores, micrfonos, cmaras, escneres mdicos, imgenes, etc. en
nuestras vidas, los datos generados a partir de estos elementos sern dentro de poco el
segmento ms grande de toda la informacin disponible.
El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les podran
haber tomado aos en descubrir por si mismos sin el uso de estas herramientas, debido a
la velocidad del anlisis, es posible que el analista de datos pueda cambiar sus ideas
basndose en el resultado obtenido y retrabajar el procedimiento una y otra vez hasta
encontrar el verdadero valor al que se est tratando de llegar.
Como se pudo notar en el presente artculo, implementar una solucin alrededor de Big
Data implica de la integracin de diversos componentes y proyectos que en conjunto
forman el ecosistema necesario para analizar grandes cantidades de datos.
Sin una plataforma de Big Data se necesitara que desarrollar adicionalmente cdigo
que permita administrar cada uno de esos componentes como por ejemplo: manejo de
eventos, conectividad, alta disponibilidad, seguridad, optimizacin y desempeo,
depuracin, monitoreo, administracin de las aplicaciones, SQL y scripts
personalizados.
IBM cuenta con una plataforma de Big Data basada en dos productos principales: IBM
InfoSphere BigInsights e IBM InfoSphere Streams, adems de su reciente
adquisicin Vivisimo, los cuales estn diseados para resolver este tipo de problemas.
Estas herramientas estn construidas para ser ejecutadas en sistemas distribuidos a gran
escala diseados para tratar con grandes volmenes de informacin, analizando tanto
datos estructurados como no estructurados.
Dentro de la plataforma de IBM existen ms de 100 aplicaciones de ejemplo
recolectadas del trabajo que se ha realizado internamente en la empresa para casos de
uso e industrias especficas. Estos aplicativos estn implementados dentro de la solucin
de manera que las organizaciones puedan dedicar su tiempo a analizar y no a
implementar.