Big Data

Big Data
Entendemos como Big Data las cantidades de datos a gran escala que sobrepasan la capacidad del software
convencional para ser capturadas, procesadas y almacenadas en un tiempo razonable.
El concepto de Big Data también engloba las infraestructuras, tecnologías y servicios que han sido creados
para poder gestionar esta gran cantidad de información.
Según IDC, la cantidad de datos almacenadas en el mundo se está duplicando cada dos años. La explosión de
datos a la cual estamos asistiendo es una consecuencia de la revolución digital y de la gran adopción por parte
de los ciudadanos y de las empresas de herramientas y tecnologías como las redes sociales, los dispositivos
móviles, la geolocalización, y los objetos y sensores conectados a la Red – el Internet de las Cosas.
Para que nos hagamos una idea, cada día utilizamos muchos dispositivos mediante los cuales se emite una
cantidad ingente de información: cada vez que hacemos clic en una página web, pagamos con tarjeta de
crédito, publicamos imágenes en las redes sociales, encendemos el GPS, etc. Todas estas (y muchas más)
acciones producen datos masivos que deben ser tratados.
Estamos pues frente a una nueva revolución que introduce grandes oportunidades y, al mismo tiempo,
importantes retos para nuestras empresas. En este artículo intentaremos arrojar luz sobre lo que es Big Data y
para qué sirve.
¿Qué es y para qué sirve el Big Data?

En definitiva, cuando hablamos de Big Data no nos referimos únicamente a los datos, sino sobre todo a la
capacidad de poderlos explotar para extraer información y conocimiento de valor para nuestro negocio. La
finalidad del Big Data es poder diseñar nuevos productos y servicios basándose en los nuevos insights que
adquirimos sobre nuestros clientes, sobre nuestra competencia o el mercado en general.
Una vez recogida y almacenada la información, se deben extraer indicadores que puedan ser útiles para tomar
decisiones, incluso en tiempo real.
Las cinco “Vs” del Big Data

La primera pregunta que nos viene a la mente al considerar el Big Data, está relacionada con cuánto de
“grande” tienen que ser los datos para ser considerados “Big”. Finalmente, el enfoque correcto está en no
establecer un tamaño en absoluto, sino relativo. Lo que ahora puede parecernos un gran tamaño de datos, en
dos o tres años puede ser normal o hasta irrelevante. La mayoría de expertos definen el Big Data en términos
de las cinco “Vs”:
 Volumen: como hemos visto, la cantidad de datos se define “Big” no cuando supera un tamaño
definido, sino cuando su almacenamiento, procesamiento y explotación empieza a ser un reto para una
organización.
 Velocidad: la segunda característica del Big Data está relacionada con el ritmo a los cuales los datos
se están generando, que suele aumentar constantemente y que necesita una respuesta en tiempo real
por parte de las empresas.
 Variedad: sin embargo, el reto principal del Big Data reside en la gran diferencia de formatos distintos
en los cuales encontramos los datos y que pueden ir desde texto sencillo, a imágenes, videos, hojas de
cálculos y enteras bases de datos.
 Veracidad: además, los datos tienen que ser confiables y han que ser mantenidos limpios. Una gran
cantidad de datos no tiene valor si son incorrectos y puede ser altamente perjudicial, sobre todo en la
toma de decisión automatizada.
 Valor: finalmente, los datos y su análisis tienen que generar un beneficio para las empresas.
Tipos de Big Data

A la hora de clasificar los “grandes datos” podemos hacerlo según dos criterios: procedencia y estructura. Así,
según su procedencia, los datos pueden llegar desde distintas fuentes, entre otras:
 Web y Redes Sociales: información disponible en Internet como contenido Web, generada por los
usuarios en su actividad en las redes sociales o información de búsquedas en buscadores.
 Machine-to-Machine (M2M): datos generados a partir de la comunicación entre sensores inteligentes

integrados en objetos de uso cotidiano.
 Transacciones: incluye registros de facturación, llamadas o transacciones entre cuentas.

 Biométricos: datos generados por tecnología de identificación de personas mediante reconocimiento
facial, de huellas dactilares o mediante información genética.
 Generados por personas: a través de correos electrónicos, servicios de mensajería o grabaciones de

llamadas.
 Generados por organizaciones tanto públicas como privadas: datos relacionados con el
medioambiente, estadísticas gubernamentales sobre población y economía, historiales clínicos
electrónicos, etc.
Por otro lado, según su estructura, los datos pueden ser:
 Estructurados: datos que tienen definidos su formato, tamaño y longitud, como las bases de datos
relacionales o Data Warehouse.
 Semiestructurados: datos almacenados según una cierta estructura flexible y con metadatos definidos,
como XML y HTML, JSON, y las hojas de cálculo (CSV, Excel).
 No estructurados: datos sin formato específico, como ficheros de texto (Word, PDF, correos
electrónicos) o contenido multimedia (audio, vídeo, o imágenes).
Para qué sirve el Big Data en las empresas

Una vez hayamos aceptado que los datos han venido para quedarse, la siguiente pregunta es sobre las ventajas
que pueden representar para nuestra organización. En este sentido, un estudio llevado a cabo por Bain &
Company demuestra de forma clara las ventajas competitivas que pueden obtener las empresas early
adopter del Big Data. Estas empresas tienen:
 Dos veces más probabilidades de obtener un rendimiento financiero superior que la media de sus
industrias.
 Cinco veces más probabilidades de tomar decisiones mucho más rápido que sus competidores.
 Tres veces más probabilidades de ejecutar las decisiones según lo previsto.
 El doble de probabilidades de tomar decisiones basadas en datos.

Big Data: ejemplos reales
Para entender para qué sirve el Big Data, veamos algunos ejemplos reales de su uso:
1. Marketing: segmentación de clientes. Muchas empresas usan datos masivos para adaptar sus
productos y servicios a las necesidades de sus clientes, optimizar operaciones e infraestructuras, y
encontrar nuevos campos de negocio.
2. Deportes: optimización del rendimiento. Dispositivos como los smart watches registran
automáticamente datos como el consumo de calorías o los niveles de acondicionamiento físico.
3. Salud pública: codificación de material genético. Por ejemplo, existen plataformas de análisis del Big
Data que se dedican a descodificar cadenas de ADN para comprender mejor las enfermedades y
encontrar nuevos tratamientos.
4. Nuevas tecnologías: desarrollo de dispositivos autónomos. El análisis de datos masivos puede
contribuir a mejorar máquinas y dispositivos, y hacerlos más autónomos. Un ejemplo son los coches
inteligentes.
5. Seguridad: detección y prevención de crímenes. Los cuerpos de seguridad usan el Big Data para
localizar a criminales o prevenir actividades delictivas como los ataques cibernéticos.
Big Data: herramientas y soluciones

Big Data necesita nuevas herramientas y tecnologías que puedan abarcar la complejidad de datos no
estructurados y en continua expansión. Para ello, las tecnologías tradicionales de base de datos relacionales o
RDBMS, no son adecuadas. Además, se necesitan aplicaciones avanzadas de análisis y visualización, para
poder extraer todo el potencial de los datos y explotarlo para nuestros objetivos de negocio. Veamos a
continuación algunas de las principales herramientas:
 Hadoop: es una herramienta de código abierto que nos permite tanto gestionar los grandes volúmenes
de datos, como analizarlos y procesarlos. Hadoop implementa MapReduce, un modelo de
programación que da soporte a la computación paralela sobre grandes colecciones de datos.
 NoSQL: se trata de sistemas que no utilizan SQL como lenguaje de consultas, lo que, a pesar de no
poder garantizar la integridad de los datos (principios ACID: atomicidad, consistencia, integridad y
durabilidad), les permite obtener ganancias significativas en escalabilidad y rendimiento a la hora de
trabajar con Big Data. Una de las bases de datos NoSQL más populares es MongoDB.
 Spark: es un framework de computación en clúster de código abierto que permite procesar los datos de
forma rápida. Permite escribir aplicaciones en Java, Scala, Python, R y SQL y funciona tanto sobre
Hadoop, Apache Mesos, Kubernetes, como de forma independiente o en la nube. Puede acceder a
centenares de fuentes de datos.
 Storm: es un sistema de computación en tiempo real distribuido de código libre. Storm permite
procesar flujos ilimitados de datos en tiempo real de manera sencilla, pudiendo usarse con cualquier
lenguaje de programación.
 Hive: es una infraestructura de Data Warehouse construida sobre Hadoop. Facilita la lectura, escritura
y administración de grandes conjuntos de datos que residen en almacenamiento distribuido mediante
SQL.
 R: es uno de los lenguajes de programación más utilizados en análisis estadísticos y en minería de

datos . Puede integrarse con distintas bases de datos y permite generar gráficos con alta calidad.
 D3.js: es una biblioteca de JavaScript para producir visualizaciones dinámicas e interactivas de datos
en navegadores web, usando HTML, SVG y CSS.
4 pasos clave para subirse al Big Data

Para poder comenzar a disfrutar de los beneficios de Big Data, cualquier organización necesita disponer de
cuatros activos clave:
 En primer lugar, los datos. En un entorno donde los datos están explosionando, su disponibilidad no
parece ser el problema. Lo que debería preocuparnos es más bien ser capaces de mantener su calidad,
y saber manejarlos y explotarlos de forma correcta.
 Para ello, se necesitan las herramientas analíticas adecuadas, lo que tampoco representa una barrera
para las empresas al día de hoy, debido a la gran disponibilidad en el mercado de herramientas y
plataformas tanto propietarias como de código abierto.
 Lo que nos lleva de lleno al tercer activo fundamental, que es el factor humano. Disponer en nuestra
organización de los profesionales adecuados, como científicos de datos, pero también de expertos en
las implicaciones legales de la gestión de los datos y de su privacidad, se perfila como el desafío más
importante.
 Sin embargo, dotarse de estos tres activos y ponerlos a trabajar tampoco nos asegurará el éxito con el
Big Data. Para ser verdaderas empresas data driven, necesitaremos llevar a cabo una transformación
radical de nuestros procesos y cultura empresarial, para hacer que los datos estén verdaderamente al
centro de nuestra compañía, y conseguir que todos los departamentos, desde TI hasta la alta dirección,
asuman este nuevo enfoque.
Los retos del Big Data

Hoy en día ninguna empresa puede ignorar Big Data y las implicaciones que tiene sobre su negocio. Sin
embargo, se trata de un concepto relativamente nuevo y en continua evolución, y no son pocos los retos a los
cuales se enfrentan las organizaciones a la hora de relacionarse con los grandes datos. Entre ellos:
 La tecnología: las herramientas Big Data cono Hadoop no son tan fáciles de administrar y requieren
profesionales de datos especializados además de importantes recursos para el mantenimiento.
 La escalabilidad: un proyecto de Big Data puede crecer con grande velocidad, por lo cual una empresa
tiene que tenerlo en cuenta a la hora de asignar los recursos para que el proyecto no sufra
interrupciones y el análisis sea continuo.
 El talento: los perfiles necesarios para el Big Data escasean y las empresas se encuentran frente al reto
de encontrar a los profesionales adecuados y, al mismo tiempo, de formar a sus empleados sobre este
nuevo paradigma.
 Los actionable insights: frente a la cantidad de datos, el reto para una empresa es identificar objetivos
de negocio claros y analizar los datos apropiados para alcanzarlos.
 La calidad de datos: como hemos visto anteriormente es necesario mantener a los datos limpios para
que la toma de decisión se base en datos de calidad.
 Los costes: los datos seguirán creciendo, por lo cual es importante dimensionar correctamente los
costes de un proyecto de Big Data, teniendo en cuenta tanto las instalaciones y personal propio como
la contratación de proveedores.
 La seguridad: finalmente, es necesario mantener seguro el acceso a los datos, lo que se consigue con
autenticación de usuarios, restricciones de acceso, cifrado de datos en tránsito o almacenados y
cumpliendo las principales normativas de protección de datos.
Hemos visto los grandes beneficios del Big Data para las empresas, así como los principales retos de su
implementación. Aquellas organizaciones que sepan tener en cuenta de estos factores podrán poner en marcha
proyectos de Big Data exitosos y obtendrán una ventaja competitiva significativa a la hora de crear nuevos
productos y servicios.

Big Data

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Big Data

Cargado por

Copyright:

Formatos disponibles

Big Data

¿Qué es y para qué sirve el Big Data?

Las cinco “Vs” del Big Data

Tipos de Big Data

 Machine-to-Machine (M2M): datos generados a partir de la comunicación entre sensores inteligentes

 Transacciones: incluye registros de facturación, llamadas o transacciones entre cuentas.

 Generados por personas: a través de correos electrónicos, servicios de mensajería o grabaciones de

Por otro lado, según su estructura, los datos pueden ser:

Para qué sirve el Big Data en las empresas

 Tres veces más probabilidades de ejecutar las decisiones según lo previsto.

 El doble de probabilidades de tomar decisiones basadas en datos.

Big Data: herramientas y soluciones

 R: es uno de los lenguajes de programación más utilizados en análisis estadísticos y en minería de

4 pasos clave para subirse al Big Data

Los retos del Big Data

También podría gustarte