Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Big Data
Big Data
Entendemos como Big Data las cantidades de datos a gran escala que sobrepasan la capacidad del software
convencional para ser capturadas, procesadas y almacenadas en un tiempo razonable.
El concepto de Big Data también engloba las infraestructuras, tecnologías y servicios que han sido creados
para poder gestionar esta gran cantidad de información.
Según IDC, la cantidad de datos almacenadas en el mundo se está duplicando cada dos años. La explosión de
datos a la cual estamos asistiendo es una consecuencia de la revolución digital y de la gran adopción por parte
de los ciudadanos y de las empresas de herramientas y tecnologías como las redes sociales, los dispositivos
móviles, la geolocalización, y los objetos y sensores conectados a la Red – el Internet de las Cosas.
Para que nos hagamos una idea, cada día utilizamos muchos dispositivos mediante los cuales se emite una
cantidad ingente de información: cada vez que hacemos clic en una página web, pagamos con tarjeta de
crédito, publicamos imágenes en las redes sociales, encendemos el GPS, etc. Todas estas (y muchas más)
acciones producen datos masivos que deben ser tratados.
Estamos pues frente a una nueva revolución que introduce grandes oportunidades y, al mismo tiempo,
importantes retos para nuestras empresas. En este artículo intentaremos arrojar luz sobre lo que es Big Data y
para qué sirve.
Una vez recogida y almacenada la información, se deben extraer indicadores que puedan ser útiles para tomar
decisiones, incluso en tiempo real.
Volumen: como hemos visto, la cantidad de datos se define “Big” no cuando supera un tamaño
definido, sino cuando su almacenamiento, procesamiento y explotación empieza a ser un reto para una
organización.
Velocidad: la segunda característica del Big Data está relacionada con el ritmo a los cuales los datos
se están generando, que suele aumentar constantemente y que necesita una respuesta en tiempo real
por parte de las empresas.
Variedad: sin embargo, el reto principal del Big Data reside en la gran diferencia de formatos distintos
en los cuales encontramos los datos y que pueden ir desde texto sencillo, a imágenes, videos, hojas de
cálculos y enteras bases de datos.
Veracidad: además, los datos tienen que ser confiables y han que ser mantenidos limpios. Una gran
cantidad de datos no tiene valor si son incorrectos y puede ser altamente perjudicial, sobre todo en la
toma de decisión automatizada.
Valor: finalmente, los datos y su análisis tienen que generar un beneficio para las empresas.
Web y Redes Sociales: información disponible en Internet como contenido Web, generada por los
usuarios en su actividad en las redes sociales o información de búsquedas en buscadores.
Generados por organizaciones tanto públicas como privadas: datos relacionados con el
medioambiente, estadísticas gubernamentales sobre población y economía, historiales clínicos
electrónicos, etc.
Estructurados: datos que tienen definidos su formato, tamaño y longitud, como las bases de datos
relacionales o Data Warehouse.
Semiestructurados: datos almacenados según una cierta estructura flexible y con metadatos definidos,
como XML y HTML, JSON, y las hojas de cálculo (CSV, Excel).
No estructurados: datos sin formato específico, como ficheros de texto (Word, PDF, correos
electrónicos) o contenido multimedia (audio, vídeo, o imágenes).
Dos veces más probabilidades de obtener un rendimiento financiero superior que la media de sus
industrias.
Cinco veces más probabilidades de tomar decisiones mucho más rápido que sus competidores.
1. Marketing: segmentación de clientes. Muchas empresas usan datos masivos para adaptar sus
productos y servicios a las necesidades de sus clientes, optimizar operaciones e infraestructuras, y
encontrar nuevos campos de negocio.
2. Deportes: optimización del rendimiento. Dispositivos como los smart watches registran
automáticamente datos como el consumo de calorías o los niveles de acondicionamiento físico.
3. Salud pública: codificación de material genético. Por ejemplo, existen plataformas de análisis del Big
Data que se dedican a descodificar cadenas de ADN para comprender mejor las enfermedades y
encontrar nuevos tratamientos.
4. Nuevas tecnologías: desarrollo de dispositivos autónomos. El análisis de datos masivos puede
contribuir a mejorar máquinas y dispositivos, y hacerlos más autónomos. Un ejemplo son los coches
inteligentes.
5. Seguridad: detección y prevención de crímenes. Los cuerpos de seguridad usan el Big Data para
localizar a criminales o prevenir actividades delictivas como los ataques cibernéticos.
Hadoop: es una herramienta de código abierto que nos permite tanto gestionar los grandes volúmenes
de datos, como analizarlos y procesarlos. Hadoop implementa MapReduce, un modelo de
programación que da soporte a la computación paralela sobre grandes colecciones de datos.
NoSQL: se trata de sistemas que no utilizan SQL como lenguaje de consultas, lo que, a pesar de no
poder garantizar la integridad de los datos (principios ACID: atomicidad, consistencia, integridad y
durabilidad), les permite obtener ganancias significativas en escalabilidad y rendimiento a la hora de
trabajar con Big Data. Una de las bases de datos NoSQL más populares es MongoDB.
Spark: es un framework de computación en clúster de código abierto que permite procesar los datos de
forma rápida. Permite escribir aplicaciones en Java, Scala, Python, R y SQL y funciona tanto sobre
Hadoop, Apache Mesos, Kubernetes, como de forma independiente o en la nube. Puede acceder a
centenares de fuentes de datos.
Storm: es un sistema de computación en tiempo real distribuido de código libre. Storm permite
procesar flujos ilimitados de datos en tiempo real de manera sencilla, pudiendo usarse con cualquier
lenguaje de programación.
Hive: es una infraestructura de Data Warehouse construida sobre Hadoop. Facilita la lectura, escritura
y administración de grandes conjuntos de datos que residen en almacenamiento distribuido mediante
SQL.
D3.js: es una biblioteca de JavaScript para producir visualizaciones dinámicas e interactivas de datos
en navegadores web, usando HTML, SVG y CSS.
En primer lugar, los datos. En un entorno donde los datos están explosionando, su disponibilidad no
parece ser el problema. Lo que debería preocuparnos es más bien ser capaces de mantener su calidad,
y saber manejarlos y explotarlos de forma correcta.
Para ello, se necesitan las herramientas analíticas adecuadas, lo que tampoco representa una barrera
para las empresas al día de hoy, debido a la gran disponibilidad en el mercado de herramientas y
plataformas tanto propietarias como de código abierto.
Lo que nos lleva de lleno al tercer activo fundamental, que es el factor humano. Disponer en nuestra
organización de los profesionales adecuados, como científicos de datos, pero también de expertos en
las implicaciones legales de la gestión de los datos y de su privacidad, se perfila como el desafío más
importante.
Sin embargo, dotarse de estos tres activos y ponerlos a trabajar tampoco nos asegurará el éxito con el
Big Data. Para ser verdaderas empresas data driven, necesitaremos llevar a cabo una transformación
radical de nuestros procesos y cultura empresarial, para hacer que los datos estén verdaderamente al
centro de nuestra compañía, y conseguir que todos los departamentos, desde TI hasta la alta dirección,
asuman este nuevo enfoque.
La tecnología: las herramientas Big Data cono Hadoop no son tan fáciles de administrar y requieren
profesionales de datos especializados además de importantes recursos para el mantenimiento.
La escalabilidad: un proyecto de Big Data puede crecer con grande velocidad, por lo cual una empresa
tiene que tenerlo en cuenta a la hora de asignar los recursos para que el proyecto no sufra
interrupciones y el análisis sea continuo.
El talento: los perfiles necesarios para el Big Data escasean y las empresas se encuentran frente al reto
de encontrar a los profesionales adecuados y, al mismo tiempo, de formar a sus empleados sobre este
nuevo paradigma.
Los actionable insights: frente a la cantidad de datos, el reto para una empresa es identificar objetivos
de negocio claros y analizar los datos apropiados para alcanzarlos.
La calidad de datos: como hemos visto anteriormente es necesario mantener a los datos limpios para
que la toma de decisión se base en datos de calidad.
Los costes: los datos seguirán creciendo, por lo cual es importante dimensionar correctamente los
costes de un proyecto de Big Data, teniendo en cuenta tanto las instalaciones y personal propio como
la contratación de proveedores.
La seguridad: finalmente, es necesario mantener seguro el acceso a los datos, lo que se consigue con
autenticación de usuarios, restricciones de acceso, cifrado de datos en tránsito o almacenados y
cumpliendo las principales normativas de protección de datos.
Hemos visto los grandes beneficios del Big Data para las empresas, así como los principales retos de su
implementación. Aquellas organizaciones que sepan tener en cuenta de estos factores podrán poner en marcha
proyectos de Big Data exitosos y obtendrán una ventaja competitiva significativa a la hora de crear nuevos
productos y servicios.