Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Big Data
Big Data
fsicos[7] y las investigaciones relacionadas con los procesos biolgicos y ambientales,[8] Las limitaciones tambin afectan a los motores de bsqueda en internet, a los
sistemas nanzas y a la informtica de negocios. Los data sets crecen en volumen debido en parte a la introduccin de informacin ubicua procedente de los sensores
inalmbricos y los dispositivos mviles (por ejemplo las
VANETs), del constante crecimiento de los histricos
de aplicaciones (por ejemplo de los logs), cmaras (sistemas de teledeteccin), micrfonos, lectores de radiofrequency identication.[9][10] La capacidad tecnolgica
per-cpita a nivel mundial para almacenar datos se dobla aproximadamente cada cuarenta meses desde los aos
ochenta.[11] Se estima que en 2012 cada da fueron creaUn sistema de representacin de datos creado por IBM muestra dos cerca de 2,5 trillones de bytes de datos (del ingls
el big data que consiste en las ediciones de Wikipedia realizadas quintillion, 2.51018 ).[12]
por el bot Pearle, mostrando su visualizacin ms racional al ser
acompaada de colores y posiciones en su representacin.
1 Denicin
El Big Data o Datos masivos es un concepto que hace
referencia a la acumulacin masiva de datos y a los procedimientos usados para identicar patrones recurrentes
dentro de esos datos. Otras denominaciones para el mismo concepto son datos masivos o datos a gran escala. En la literatura cientca en espaol con frecuencia se
usa directamente el trmino en ingls Big Data, tal como
aparece en el ensayo seminal de Viktor Schnberger Big
data: La revolucin de los datos masivos.[1]
2 TECNOLOGA
Transacciones de datos: La facturacin, las llamadas o las transaccin entre cuentas generan informacin que tratada pueden ser datos relevantes. Un
ejemplo ms claro lo encontraremos en las transacciones bancarias: lo que el usuario conoce como un
ingreso de X euros, la computacin lo interpretar como una accin llevada a cabo en una fecha y
momento determinado, en un lugar concreto, entre
unos usuarios registrados, y ms metadatos.
2.1
Captura
Generados por las personas: Enviar correos electrnicos por e-mail o mensajes por WhatsApp,
postear en Facebook, tuitear contenidos o responder a una encuesta por la calle son algunas acciones
cuotidianas que crean nuevos datos y metadatos que
pueden ser analizados. Se estima que cada minuto
al da se envan ms de 200 millones de e-mails,
se comparten ms de 700.000 piezas de contenido en Facebook, se realizan dos millones de bsquedas en Google o se editan 48 horas de vdeo en
YouTube.[19] Por otro lado, las trazas de utilizacin
en un sistema ERP, incluir registros en una base de
datos o introducir informacin en una hoja de clculo son otras formas de generar estos datos.
2.2 Transformacin
Una vez encontradas las fuentes de los datos necesarios,
muy posiblemente dispongamos de un sinfn de tablas de
origen sin estar relacionadas. El siguiente objetivo consta
en hacer que los datos se recojan en un mismo lugar y
darles un formato.
Aqu entran en juego las plataformas ETL (Extract,
Transform and Load). Su propsito es extraer los datos de las diferentes fuentes y sistemas, para despus
hacer transformaciones (conversiones de datos, limpieza de datos sucios, cambios de formato) y nalmente cargar los datos en la base de datos o Data Warehouse especicada.[21] Un ejemplo de plataforma ETL es el
2.4
Anlisis de datos
Pentaho Data Integration, ms concretamente su aplica- de datos, agruparlos o reducirlos y cargarlos en otra cocin Spoon.
leccin, y a Hadoop que es una tecnologa de Apache diseada para almacenar y procesar grandes cantidades de
datos.
2.3
Almacenamiento NoSQL
Almacenamiento Documental: Las bases de datos documentales guardan un gran parecido con las
bases de datos Clave-Valor, diferencindose en el
dato que guardan. Si en la anterior no requera una
estructura de datos concreta, en este caso guardamos
datos semiestructurados.[25] Estos datos pasan a llamarse documentos, y pueden estar formateados en 2.4 Anlisis de datos
XML, JSON, Binary JSON o el que acepte la misma
base de datos.
Teniendo los datos necesarios almacenados segn diferentes tecnologas de almacenamiento, nos daremos
Todos los documentos tienen una clave nica
cuenta que necesitaremos diferentes tcnicas de anlisis
con la que puede ser accedido e identicado
de datos como las siguientes:
explcitamente. Estos documentos no son opacos al sistema, por lo que pueden ser interpreta Asociacin: Permite encontrar relaciones entre didos y lanzar queries sobre ellos.[23] Un ejemplo
ferentes variables.[26] Bajo la premisa de causalidad,
que aclare cmo se usa lo encontramos en un
se pretende encontrar una prediccin en el comporblog: se almacena el autor, la fecha, el ttulo, el
tamiento de otras variables. Estas relaciones pueresumen y el contenido del post.
den ser los sistemas de ventas cruzadas en los eCouchDB o MongoDB[25] son quiz las ms conocidas.
Hay que hacer mencin especial a MapReduce, una tecnologa de Google inicialmente diseada para su algoritmo PageRank, que permite seleccionar un subconjunto
commerce.
Minera de datos (Data Mining): Tiene como objetivo encontrar comportamientos predictivos. Engloba el conjunto de tcnicas que combina mtodos
3 UTILIDAD
estadsticos y de machine learning con almacena- anlisis sobre nuestros datos, y son un material atractivo,
miento en bases de datos.[27] Est estrechamente re- entretenido y simplicado para audiencias masivas.[31]
lacionada con los modelos utilizados para descubrir
patrones en grandes cantidades de datos.
Agrupacin (Clustering): El anlisis de clsteres
es un tipo de minera de datos que divide grandes
grupos de individuos en grupos ms pequeos
de los cuales no conocamos su parecido antes
del anlisis.[27] El propsito es encontrar similitudes entre estos grupos, y el descubrimiento de
nuevos conociendo cules son las cualidades que
lo denen. Es una metodologa apropiada para
encontrar relaciones entre resultados y hacer una
evaluacin preliminar de la estructura de los datos
analizados. Existen diferentes tcnicas y algoritmos
de clustering.[28]
Anlisis de texto (Text Analytics): Gran parte de
los datos generados por las personas son textos, como e-mails, bsquedas web o contenidos. Esta metodologa permite extraer informacin de estos datos y
as modelar temas y asuntos o predecir palabras.[29]
2.5
Visualizacin de datos
3 Utilidad
Este conjunto de tecnologas se puede usar en una gran
variedad de mbitos, como los siguientes.
3.1 Empresarial
Redes Sociales: Cada vez ms tendemos a subir a las redes sociales toda nuestra actividad y la de nuestros conocidos. Las empresas utilizan esta informacin para cruzar los datos de los candidatos a un trabajo. Oracle ha
desarrollado una herramienta llamada Taleo Social Sourcing,[32] la cual est integrada con las APIs de Facebook,
Twitter y LinkedIn. Gracias a su uso, los departamentos
de recursos humanos pueden ver, entrando la identidad
del candidato, su perl social y profesional en cuestin
de segundos. Por otro lado, les permite crear una lista de
posibles candidatos segn el perl profesional necesario,
y as pasar a ofrecer el puesto de trabajo a un pblico
mucho ms objetivo. Por otro lado, Gate Gourmet una
compaa de catering de aerolneas,- experimentaba una
tasa de abandono del 50% de sus trabajadores asignados
al aeropuerto de Chicago, y sospecharon que el problema exista en el tiempo dedicado al viaje. Para demostrarlo, hicieron anlisis juntando varios data sets de sus
sistemas internos y de otros externos como datos demogrcos, datos de trco y datos de uso de redes sociales.
Los resultados que obtuvieron fueron patrones que relacionaban muy consistentemente la alta tasa de abandono
con la distancia del lugar de trabajo a casa y la accesibilidad al transporte pblico.[33]
Consumo: Amazon es lder en ventas cruzadas. El xito
se basa en la minera de datos masiva basando los patrones de compra de un usuario cruzados con los datos
de compra de otro, creando as anuncios personalizados
y boletines electrnicos que incluyen justo aquello que
el usuario quiere en ese instante.[34] Oine tambin nos
encontramos con casos de aplicacin Big Data. Nuestros
telfonos mviles envan peticiones de escucha WiFi a
todos los puntos de acceso con los que nos cruzamos. Algunas compaas han decidido hacer un trazo de estas peticiones con su localizacin y direccin MAC para saber
qu dispositivo hace cul ruta dentro de un recinto. No
hay que asustarse ya que con la direccin MAC no pueden invadir nuestra intimidad.[35] Las grandes supercies
aprovechan estos datos para sacar informacin como contabilizar cunto tiempo pasan los clientes en su interior,
qu rutas siguen, dnde permanecen ms tiempo (ya sea
escogiendo un producto o el tiempo de espera en caja) o
cul es la frecuencia de visita.
Big Data e intimidad: La cantidad de datos creados
anualmente es de 2,8 Zettabytes en 2012, de los cuales
el 75% son generados por los individuos segn su uso de
3.3
Investigacin
3.2
Deportes
5
Acionado: Aplicaciones como Runtastic, Garmin o
Nike+ proveen de resultados Big Data al usuario. Este
ltimo Nike+- va un paso ms all a nivel de organizacin, ya que fabrican un producto bsico para sus usuarios: las zapatillas. Los 7 millones de usuarios generan
una gran cantidad de datos para medir el rendimiento y
su mejora, por lo que la empresa genera unos clsteres
con los patrones de comportamiento de sus usuarios. Uno
de sus objetivos pues, es controlar el tiempo de vida de
sus zapatillas encontrando frmulas para mejorar la calidad. Por ltimo, hace picar a sus usuarios con el uso de
la gamicacin: establece que comunidades de usuarios
lleguen a metas y consigan objetivos conjuntamente con
el uso de la aplicacin, motivando e inspirando a los corredores para usar su aplicacin y a ms largo plazo, sus
productos deportivos.
3.3 Investigacin
Salud y medicina: Hacia mediados 2009, el mundo experiment una pandemia de gripe A, llamada gripe porcina o H1N1. El website Google Flu Trends fue capaz de
predecirla gracias a los resultados de las bsquedas. Flu
Trends usa los datos de las bsquedas de los usuarios que
contienen Inuenza-Like Illness Symptoms (Sntomas parecidos a la enfermedad de la gripe) y los agrega segn
ubicacin y fecha, y es capaz de predecir la actividad de
la gripe hasta con dos semanas de antelacin ms que los
sistemas tradicionales. Ms concretamente en Nueva Zelanda[44] cruzaron los datos de Google Flu Trends con datos existentes de los sistemas de salud nacionales, y comprobaron que estaban alineados. Los grcos mostraron
una correlacin con las bsquedas de ILI Symptoms y la
extensin de la pandemia en el pas. Los pases con sistemas de prediccin poco desarrollados pueden beneciarse de una prediccin able y pblica para abastecer a su
poblacin de las medidas de seguridad oportunas.
Defensa y seguridad: Para incrementar la seguridad
frente a los ataques de las propias organizaciones, ya sean
empresas en el entorno econmico o los propios ministerios de defensa en el entorno de ciberataques, se contempla la utilidad de la tecnologa Big Data en escenarios
como la vigilancia y seguridad de fronteras, lucha contra el terrorismo y crimen organizado, contra el fraude,
planes de seguridad ciudadana o planeamiento tctico de
misiones e inteligencia militar.[45]
Caso especco: Proyecto Aloja:
El Proyecto Aloja[46] ha sido iniciado por una apuesta
en comn del Barcelona Supercomputing Center (BSC)
y Microsoft Research. El objetivo de este proyecto de
Big Data quiere conseguir una optimizacin automtica
en despliegues de Hadoop en diferentes infraestructuras.
[40]
Caso especco: Sostenibilidad: Conservation International es una organizacin con el propsito de concienciar
a la sociedad de cuidar el entorno de una manera responsable y sostenible. Con la ayuda de la plataforma Vertica
REFERENCIAS
[9] Hellerstein,
Joe.
Parallel
Programming
in
the Age of Big Data. Gigaom Blog. 9 Nohttp://gigaom.com/2008/11/09/
vember
2008.
mapreduce-leads-the-way-for-parallel-programming/
[10] Segaran, Toby and Hammerbacher, Je. Beautiful Data.
1st Edition. O'Reilly Media. Pg 257.
Analytics de HP, han situado 1.000 cmaras a lo largo [11] The Worlds Technological Capacity to Store, Communide 16 bosques en 4 continentes. Estas cmaras incorpocate, and Compute Information, Martin Hilbert and Prisran unos sensores, y a modo de cmara oculta graban el
cila Lpez (2011), Science (journal), 332(6025), 60-65;
comportamiento de la fauna. Con estas imgenes y los
free access to the article through here: martinhilbert.net/
datos de los sensores (precipitaciones, temperatura, huWorldInfoCapacity.html
medad, solar) consiguen informacin sobre cmo el
cambio climtico o el desgaste de la tierra afecta en su [12] http://www-01.ibm.com/software/data/bigdata/
comportamiento y desarrollo.[47]
[13] Douglas, Laney. 3D Data Management: Controlling Data
Vase tambin
Medios sociales
Internet de las cosas
Centros Multimedia
Personalizacin de contenidos
Sistema de recomendacin Sistema recomendador
Referencias
[1] http://www.eldiario.es/turing/Big-data_0_161334397.
html
[2] Kusnetzky, Dan. What is Big Data?". ZDNet. http://
blogs.zdnet.com/virtualization/?p=1708
[3] Vance, Ashley. Start-Up Goes After Big Data With
Hadoop Helper. New York Times Blog. 22 April
2010.
http://bits.blogs.nytimes.com/2010/04/22/
start-up-goes-after-big-data-with-hadoop-helper/?dbk
[4] Cukier, K. (25 February 2010). Data, data everywhere. The Economist. http://www.economist.com/
specialreports/displaystory.cfm?story_id=15557443
[23] Hecht, Robin; Jablonski, Stefan (2011). NoSQL Evaluation, a use case oriented survey. International Conference
on Cloud and Service Computing.
[42] Olson, Parmy (24 de junio de 2014). Googles Nest Moves To Become Master Of The Smart Home, By Talking
To Other Devices. Forbes.
[43] Reilly, Thomas; Korkusuz, Feza (2009). Science and Football VI. The proceedings of the Sixth World Congress on
Science and Football. p. 209. ISBN 0-203-89368-9.
[25] Bianchi Widder, Maria Beln (Setiembre 2012). Els benecis de ls de tecnologies NoSQL. UPCommons. Consultado el 1 de enero de 2015.
[26] Vila, M Amparo; Sanchez, Daniel; Escobar, Luis (2004).
Relaciones Causales en Reglas de Asociacin. XII Congreso Espaol sobre tecnologas y lgica Fuzzy.
[29] Maltby, Dylan (9 de octubre de 2011). Big Data Analytics. ASIST 2011 (New Orleans).
[47] How Big Data Is Helping to Save the Planet.. 15 de setiembre de 2014.
6 Enlaces externos
Big Data ofrecido por las grandes empresas (SAP,
Oracle, Microsoft y otros)
Historia cronolgica del Big Data. Una lnea del
tiempo visual con los principales hitos de la historia del almacenamiento de la informacin.
7.1
Texto
Big data Fuente: https://es.wikipedia.org/wiki/Big_data?oldid=85718545 Colaboradores: Petronas, Tamorlan, Gejotape, Davius, Fixertool,
Cinevoro, Efmpacheco, Alberthoven, Pascow, UA31, Walterfarah, Arjuno3, Koko10ar, AttoBot, Xqbot, Jkbw, FrescoBot, AnselmiJuan,
PatruBOT, EmausBot, ZroBot, Grillitus, MerlIwBot, KLBot2, Invadibot, Vichock, YFdyh-bot, Addbot, CamaradelaFuente, Kadeeirene,
Jarould, Crystallizedcarbon, BenjaBot, Josedarocha, Rubesan, Totecasanovas, Mercedes Gpe Contreras, Pinilla2 y Annimos: 36
7.2
Imgenes
Archivo:Bsc-nvidia-gpu.jpg Fuente: https://upload.wikimedia.org/wikipedia/commons/f/fc/Bsc-nvidia-gpu.jpg Licencia: FAL Colaboradores: http://www.bsc.es/plantillaA.php?cat_id=44 Artista original: Barcelona Supercomputing Center
Archivo:Commons-emblem-issue.svg Fuente: https://upload.wikimedia.org/wikipedia/commons/b/bc/Commons-emblem-issue.svg
Licencia: GPL Colaboradores: File:Gnome-emblem-important.svg Artista original: GNOME icon artists and User:ViperSnake151
Archivo:Infografia_NucleoLinux.png Fuente: https://upload.wikimedia.org/wikipedia/commons/e/ec/Infografia_NucleoLinux.png Licencia: CC BY 4.0 Colaboradores: www.cidetys.org.pa Artista original: Mnica Mora
Archivo:Viegas-UserActivityonWikipedia.gif
Fuente:
https://upload.wikimedia.org/wikipedia/commons/6/69/
Viegas-UserActivityonWikipedia.gif Licencia: CC BY 2.0 Colaboradores: User activity on Wikipedia Artista original: Fernanda
B. Vigas
7.3