Está en la página 1de 3

Para exposicon

Big data es un concepto que se refiere a grandes volúmenes de datos que son muy variados y
veloces, al punto de que resulta muy complicado capturarlos y procesarlos con métodos
tradicionales. En muchos lugares se refieren a que para que se considere Big Data, los datos deben
cumplir con las 5V:

5V del Big Data Definición

Volumen: El almacenamiento de la masiva cantidad de datos que pueden ser recolectados de


múltiples fuentes como páginas web, social media, etc.

Velocidad: Los datos se generan en tiempo real gracias a las interacciones con las fuentes
mencionadas, por lo que deben ser procesados con la misma velocidad.

Variedad: Todo tipo de datos, ya sea estructurados o no estructurados. Podrían ser tablas, texto,
imágenes, videos, audio, bases de datos, etc.

Veracidad: Es la calidad y confiabilidad de los datos. Al llegar de diversas fuentes, se vuelve


complejo realizar su limpieza para evitar usar valores incorrectos.

Valor: Los datos deben poder proporcionar un valor o beneficio a la empresa que los está usando.

¿A partir de qué tamaño se considera que se está trabajando con


Big Data?
30 Terabytes hasta varios Petabytes.

¿Cómo funciona Big Data?


Si se tiene tanta información que no se puede procesar en una
única computadora o servidor, lo que se hace en dividir la
información en varios chunks (pedazos más pequeños de
información) y enviarlos a muchas máquinas (nodos) más
pequeñas.
De esta manera cada nodo queda encargado de resolver solo su
parte correspondiente y luego se vuelve a unir la información de
todos los nodos y se lanza un solo output (resultado) unificado.
Todos estos nodos que están conectados y trabajando de forma
paralela son conocidos como un cluster de big data.

¿Para qué sirve Big Data?


Big Data es extremadamente útil, tanto para las empresas como
para mejorar la calidad de vida de las personas. De hecho puede
dar respuestas a preguntas que ni siquiera se sabía que se
tenían. Ayuda a comprender los problemas, darles solución e
incluso predecir qué es lo que podría pasar a futuro en varios
escenarios alternativos.

Ejemplos de uso de Big Data


ofertas personalizadas para grupos de usuarios con
comportamientos comunes.
Analíticas de comportamiento de usuarios para
crear/mejorar/modificar las funcionalidades de una plataforma
acorde a lo que haga el usuario
evitar el fraude en cosas como suplantación de identidad o la
clonación de tarjetas. Por ejemplo Riskified es una empresa que
se encarga de prevenir el fraude en varios e-commerce muy
grandes.
Tecnologías aplicadas para hacer Big Data
Hay varias tecnologías que han sido creadas para realizar el
procesamiento de toda esta información aplicando los conceptos
vistos anteriormente. Los 2 grandes frameworks de Big Data que
fueron creados para dar solución al problema son Hadoop y
Spark. En un principio Spark solucionó varios problemas que
tenía Hadoop (por ejemplo cargar los datos en memoria en vez
del disco), pero eventualmente Hadoop creó un ecosistema para
solventar todo con el apoyo de otras tecnologías:

 Bases de datos NoSQL: para acceso rápido a datos puntuales.


 Hive: para data warehouse y análisis SQL.
 Flume y Sqoop: para la ingesta de datos.
 Storm: para análisis en tiempo real.

También podría gustarte