Está en la página 1de 4

Big Data (del idioma ingls grandes datos[1] [2] ) es en el sector de tecnologas de la informacin y la comunicacinuna referencia a los sistemas

que manipulan grandesconjuntos de datos (o data sets). Las dificultades ms habituales en estos casos se centran en la captura, el almacenado,[3] bsqueda, comparticin, anlisis,[4] y visualizacin. La tendencia a manipular ingentes cantidades de datos se debe a la necesidad en muchos casos de incluir los datos relacionados del anlisis en un gran conjunto de datos relacionado, tal es el ejemplo de los anlisis de negocio, los datos de enfermedades infecciosas, o la lucha contra el crimen organizado.[5] El lmite superior de procesamiento se ha ido desplazando a lo largo de los aos, de esta forma los lmites que estaban fijados en 2008 rondaban los rdenes depetabytes a zettabytes de datos.[6] Los cientficos con cierta regularidad encuentran limitaciones debido a la gran cantidad de datos en ciertas reas, tales como la meteorologa, la genmica,[7] la conectmica, las complejas simulaciones de procesos fsicos,[8] y las investigaciones relacionadas con los procesos biolgicos y ambientales,[9] Las limitaciones tambin afectan a los motores de bsqueda en internet, a los sistemas finanzas y a lainformtica de negocios. Los data sets crecen en volumen debido en parte a la introduccin de informacin ubicua procedente de los sensores inalmbricos y los dispositivos mviles (por ejemplo las VANETs), del constante crecimiento de los histricos de aplicaciones (por ejemplo de los logs), cmaras (sistemas de teledeteccin), micrfonos, lectores de radio-frequency identification.[10] [11] La capacidad para almacenar datos de la humanidad se ha doblado a un ritmo de cuarenta meses desde los aos ochenta.[12] En 2012 , cada da fueron creados cerca de 2,5 trillones (del ingls quintillion) (2.51018) de bytes de datos.[13] Definicin[ "Big data" es un trmino aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. Los tamaos del "big data" se hallan constantemente en aumento. En 2012 se dimensionaba su tamao en una docena de terabytes hasta varios petabytes de datos en un nico data set. En la metodologaMIKE2.0 dedicada a investigar temas relacionados con la gestin de informacin, definen big dataen trminos de permutaciones tiles, complejidad y dificultad para borrar registros individuales. En 2001, en un informe de investigacin que se fundamentaba en congresos y presentaciones relacionadas,[14] el analista Doug Laney del META Group (ahora Gartner) defina el crecimiento constante de datos como una oportunidad y un reto para investigar en el volumen, la velocidad y la variedad. Gartner contina usando big data como referencia de este.[15] Adems, grandes proveedores del mercado de big data estn desarrollando soluciones para atender las demandas ms crticas de procesamiento de datos masivos, como MapR, Cyttek Group y Cloudera.

Llevo ya un cierto tiempo recopilando informacin sobre Big data e introduciendo nociones sobre el tema en algunos de mis cursos, pero hoy mientras preparaba una conferencia me he dado cuenta de que era un tema que an no habamos mencionado en la pgina, a pesar de ser una de las tendencias ms sealadas actualmente en la industria. Por Big data nos referimos exactamente a lo que su propio nombre indica: al tratamiento y anlisis de enormes repositorios de datos, tan desproporcionadamente grandes que resulta imposible tratarlos con las

herramientas de bases de datos y analticas convencionales. La tendencia se encuadra en un entorno que no nos suena para nada extrao: la proliferacin de pginas web, aplicaciones de imagen y vdeo, redes sociales, dispositivos mviles, apps, sensores, internet de las cosas, etc. capaces de generar, segn IBM, ms de 2.5 quintillones de bytes al da, hasta el punto de que el 90% de los datos del mundo han sido creados durante los ltimos dos aos. Hablamos de un entorno absolutamente relevante para muchos aspectos, desde el anlisis de fenmenos naturales como el clima o de datos sismogrficos, hasta entornos como salud, seguridad o, por supuesto, el mbito empresarial. Y es precisamente en ese mbito donde las empresas desarrollan su actividad donde est surgiendo un inters que convierte a Big data en algo as como the next buzzword, la palabra que sin duda escucharemos viniendo de todas partes: vendedores de tecnologa, de herramientas, consultores, etc. En un momento en que la mayora de los directivos nunca se han sentado delante de una simple pgina de Google Analytics y se sorprenden poderosamente cuando ven lo que es capaz de hacer, llega un panorama de herramientas diseadas para que cosas inmensamente ms grandes y complejas puedan tener sentido. Tenle miedo, mucho miedo. Qu hay exactamente detrs del buzzword? Bsicamente, la evidencia de que las herramientas de anlisis no llegan para poder convertir en informacin til para la gestin empresarial los datos generados. Si tu empresa no tiene un problema con la analtica de datos, es simplemente porque no est donde tiene que estar o no sabe cmo obtener informacin del entorno: en cuanto unimos a la operativa tradicional y a las transacciones cuestiones como una cada vez ms intensa interaccin bidireccional con los clientes y el movimiento de analtica web que generan las redes sociales de todo tipo, nos encontramos un panorama en el que no estar supone de partida una desventaja importante con respecto a quienes s estn. Se trata, simplemente, de que operar en el entorno con mayor capacidad de generacin de datos de la historia conlleva la adaptacin de herramientas y procesos. Bases de datos no estructuradas, no convencionales, que pueden alcanzar petabytes, exabytes o zetabytes, y que requieren tratamientos especficos por sus necesidades tanto de almacenamiento como de procesamiento o visualizacin. Big data fue, por ejemplo, la estrella en el ltimo Oracle OpenWorld: el posicionamiento adoptado es el de ofrecer mquinas enormes con capacidades descomunales, procesamiento multiparalelo, anlisis visual sin lmites, tratamiento de datos heterogneos, etc. Desarrollos como Exadata y adquisiciones como Endeca soportan una oferta basada en el pensar a lo grande, que algunos no han dudado en discutir: frente a esa aproximacin, la realidad es que algunas de las compaas ms centradas en el tema, como Google, Yahoo! o Facebook o la prctica totalidad de las startups no utilizan herramientas de Oracle y optan, en su lugar, por una aproximacin basada en lo distribuido, en la nube y en el cdigo abierto. De cdigo abierto son Hadoop, un framework sumamente popular en este campo que permite a las aplicaciones trabajar con enormes repositorios de datos y miles de nodos, creado originalmente porDoug Cutting (que le dio el mismo nombre que tena el elefante de juguete de su hijo) e inspirado en herramientas de Google como MapReduce o Google File System, o NoSQL, sistemas de bases de datos no relacionales necesarios para albergar y procesar la enorme complejidad de datos de todo tipo generados, y que en muchos casos no siguen la lgica de garantas ACID (atomicity, consistency,isolation, durability) caracterstica de las bases de datos convencionales. En el futuro: un panorama de adopcin cada vez mayor, y muchos, muchos interrogantes. Implicaciones de cara a los usuarios y su privacidad, o a las empresas y la fiabilidad o potencialidad real de los resultados obtenidos: como dice el MIT Technology Review, grandes responsabilidades. Por el momento, una cosa es segura en Big data: prepara tus odos para escuchar el trmino.

Qu es el Big Data? Cada da, creamos 2,5 trillones de bytes de datos - tanto que el 90% de los datos en el mundo de hoy se ha creado en los ltimos dos aos. Estos datos vienen de todas partes: los sensores utilizados para recopilar informacin sobre el clima, los mensajes a las redes sociales, fotos y videos digitales, registros de transacciones de compra y las seales del GPS del telfono celular, por nombrar algunos. Estos datos son los datos grandes. Volumen: Las empresas estn inundadas de datos cada vez mayor de todo tipo, fcilmente amasando terabytes, incluso petabytes de informacin. Gire 12 terabytes de Tweets creados cada da en un mejor anlisis de los sentimientos del producto Convertir 350 mil millones de lecturas anuales metros para predecir mejor el consumo de energa

Velocidad: a veces 2 minutos es demasiado tarde. Para los procesos sensibles al tiempo, tales como la captura de fraude, grandes volmenes de datos deben utilizarse ya que las corrientes en su empresa con el fin de maximizar su valor. Examine 5.000.000 eventos comerciales crean cada da para identificar posibles fraudes

Analizar los 500 millones diarios registros detallados de llamadas en tiempo real para predecir la prdida de clientes ms rpido Variedad: Big data es cualquier tipo de datos - los datos estructurados y no estructurados, tales como texto, datos de sensores, audio, video, haga clic en arroyos, archivos de registro y ms. Nuevos conocimientos se encuentran en el anlisis de estos tipos de datos juntos. Monitor 100 de video en vivo desde cmaras de vigilancia en los puntos de destino de inters

Explotar el 80% del crecimiento de datos en imgenes, vdeo y documentos para mejorar la satisfaccin del cliente Veracidad: 1 de cada 3 empresarios no confan en la informacin que utilizan para tomar decisiones. Cmo se puede intervenir en la informacin, si no confas en l? Establecer la confianza en grandes volmenes de datos presenta un enorme desafo como la variedad y el nmero de fuentes crece. Big data es ms que una simple cuestin de tamao, sino que es una oportunidad para encontrar ideas nuevas y emergentes en los tipos de datos y contenidos, para que su negocio sea ms gil, y para responder a preguntas que antes se consideraban fuera de su alcance. Hasta ahora, no haba manera prctica para cosechar esta oportunidad. Hoy en da, la plataforma de IBM para grandes volmenes de datos utiliza el estado de las tecnologas ms avanzadas, incluyendo anlisis avanzados patentados para abrir la puerta a un mundo de posibilidades. .. Los servicios como las redes sociales, analtica web, e inteligente de comercio electrnico a menudo necesitan para gestionar los datos a una escala demasiado grande para una base de datos tradicional. La complejidad aumenta con la escala y la demanda, as como el manejo de grandes volmenes de datos no es tan simple como doblar en su RDBMS o el despliegue de una nueva tecnologa de moda. Afortunadamente,

la escalabilidad y simplicidad no son mutuamente excluyentes, slo tiene que adoptar un enfoque diferente. Grandes sistemas de datos utilizan muchas mquinas trabajando en paralelo para almacenar y procesar los datos, que introduce retos fundamentales desconocidos para la mayora de los desarrolladores. Big Data que ensea la construccin de estos sistemas que utilizan una arquitectura que se aprovecha de hardware agrupado junto con nuevas herramientas diseadas especficamente para capturar y analizar los datos de escala Web. En l se describe una solucin escalable, fcil de entender enfoque de los sistemas de datos grandes que pueden ser construidos y dirigidos por un equipo pequeo. Despus de un ejemplo real, este libro gua a los lectores a travs de la teora de los sistemas de datos grandes, la forma de aplicar en la prctica, y cmo implementar y operar una vez que estn construidos. Big Data se muestra cmo construir el back-end de un servicio en tiempo real llamado SuperWebAnalytics.com-nuestra versin de Google Analytics. Al leer, descubrir que muchas de las prcticas estndar de RDBMS vuelven difciles de manejar con los datos a gran escala. Para hacer frente a las complejidades de grandes y sistemas distribuidos de datos, debe simplificar drsticamente su enfoque. Este libro presenta un marco general para pensar en grandes volmenes de datos y, a continuacin se muestra cmo aplicar tecnologas como Hadoop, Thrift, y varias bases de datos NoSQL para construir sistemas sencillos, robustos y eficientes para manejar la situacin. .. Anunciado en el Google I / O 2010 , Google BigQuery es un servicio basado en la web donde se puede analizar datos inmensamente grandes conjuntos utilizando servidores de Google para los nmeros de crisis. Cmo masivo? Hasta Anunciado en el Google I / O 2010 , Google BigQuery es un servicio basado en la web donde se puede analizar datos inmensamente grandes conjuntos utilizando servidores de Google para los nmeros de crisis. Cmo masivo? Hasta miles de millones de filas de datos. Mediante el uso de la potencia de clculo de Google, puede obtener ideas de ese tipo de grandes volmenes de datos en cuestin de segundos, en lugar de horas o das. En concreto, los usuarios de Google Analytics Premium pueden tener su nivel de sesin no muestreada y datos de anlisis xito a nivel de enviados directamente a la plataforma de cloud BigQuery de Google para crujir nuestros todo tipo de informacin interesante realmente rpido. Segn Google, los usuarios Premium que quieran usarlo tendrn sus datos de anlisis primas exportadas automticamente a partir Premium BigQuery a diario. Los usuarios Premium Analytics tambin pueden tener datos de sus otros productos de Google exportados en BigQuery a unir con sus datos de anlisis. Adems, los usuarios tambin pueden cargar otros conjuntos de datos para BigQuery - al igual que los datos de conversin fuera de lnea - a unir. BigQuery tambin incluye otros beneficios, como las listas de control de acceso para prohibir que pueden ver, acceder y consultar los conjuntos de datos. El anuncio de Google sugiere que puede "almacenar tanto como usted desea, pagando slo por lo que usa." Eres un usuario Premium Analytics y desea en? Google cuenta con un formulario de inscripcin BigQuery para empezar.

También podría gustarte