Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Por
definición, el Big Data son datos de gran variedad, que llegan en volúmenes cada vez
mayores y, además, a una velocidad cada vez mayor. Por eso, cuando hablamos de Big
Data, siempre hablamos de las grandes V del Big Data. Y ahora hay más de tres, porque el
concepto de Big Data ha evolucionado.
Hoy en día, el almacenamiento de datos es más barato que hace unos años, así que resulta
más rápido y barato almacenar más datos. ¿Pero para qué queremos tantos datos? En
realidad, los datos sirven para lo que sea: ofrecerlos a otros clientes, usarlos para crear
nuevos productos y funcionalidades, tomar decisiones comerciales y muchas cosas
más.
El nombre de Big Data no es nuevo, pero el concepto de manejar una gran cantidad de
datos está cambiando. Lo que hasta hace poco llamábamos «Big Data» eran muchos
menos datos de lo que son ahora. En realidad, todo empezó en los años 60, cuando
empezaron a abrirse los primeros almacenes de datos.
Cuarenta años después, las empresas vieron cómo podían recopilarse conjuntos de datos a
través de servicios en línea, sitios web, aplicaciones y cualquier producto con el que
interactúan los clientes. Así es como empezaron a popularizarse los primeros servicios de
Big Data (Hadoop, NoSQL, etc.). Era imprescindible tener esas herramientas, porque
simplifican el análisis de los Big Data y lo abaratan.
El Internet de las cosas ya no es solo un sueño. Ahora hay más dispositivos conectados
a Internet, recopilando datos sobre patrones de uso de los clientes y eficacia de los
productos. De repente alguien pensó: «¿Por qué no lo usamos para que las máquinas
aprendan por sí solas?» Así es como nació el aprendizaje automático, o machine learning,
y también se empezaron a generar datos con él.
Source: FreeCodeCamp
¿Puedes hacerte una idea de cuántos datos significa eso? Y, además, ¿puedes imaginarte
cuántos usos puedes darles a todos estos datos? Todos estos datos pueden ayudarte a
tomar decisiones porque tienes toda la información que puedas necesitar. Puedes
resolver cualquier problema o dificultad muy fácilmente.
Dicho de otro modo, el Big Data son unos conjuntos de datos más grandes y
complejos, que se reciben sobre todo de nuevas fuentes de datos. Esos conjuntos de
datos son tan grandes que a los programas de software tradicionales que se usaban para
procesar los datos no les resultaba fácil gestionarlos, así que se crearon nuevas
herramientas y nuevos programas de software.
● Los datos estructurados tienen un formato fijo y a menudo son numéricos. Así que
en muchos casos los gestionan máquinas y no humanos. Este tipo de datos es
información que ya está ordenada en bases de datos y hojas de cálculo
almacenadas en bases de datos SQL, lagos de datos y almacenes de datos.
● Los datos no estructurados son información que está desorganizada y no está en
un formato predeterminado porque puede ser casi cualquier cosa. Es el caso, por
ejemplo, de los datos recopilados de fuentes de redes sociales y puede convertirse
en archivos de documentos de texto almacenados en Hadoop, como clústeres o
sistemas NoSQL.
● Los datos semiestructurados pueden contener ambas formas de datos, como
registros de servidores web o datos de sensores que haya configurado. Para ser
precisos, son datos que, a pesar de no estar clasificados en un repositorio concreto
(una base de datos), contienen información vital o etiquetas que segregan elementos
individuales dentro de los datos.
El Big Data incluye siempre múltiples fuentes y la mayor parte del tiempo es de distintos
tipos también. Así que no siempre es fácil saber cómo integrar todas las herramientas que
necesitas para trabajar con distintos tipos de datos.
Source: Datafloq
Según la capacidad del sistema, se deberán tener en cuenta todos los procesos. Y en el
caso de las grandes empresas, pueden hacer falta cientos o miles de servidores. Como te
imaginarás, esto puede empezar a salir caro. Y cuando añades todas las herramientas que
vas a necesitar, todavía se encarece más. Así que tienes que saber cómo funciona el Big
Data y las tres acciones principales que se necesitan para poder prever el presupuesto
de antemano, y crear el mejor sistema posible.
Integración
Gestión
¿Qué más puedes necesitar para semejante volumen de información? Necesitarás un lugar
donde almacenarla. Esta solución de almacenamiento puedes encontrarla en la nube, en
tus instalaciones o ambas. También puedes elegir de qué forma almacenar tus datos, para
tenerlos a tu disposición en tiempo real y cuando los pidas. Por eso cada vez más gente
elige una solución en la nube para almacenar los datos, porque es compatible con su actual
infraestructura informática.
Análisis
Bien, recibiste los datos y los has almacenado, pero tienes que analizarlos para poder
usarlos. Explora tus datos y utilízalos para tomar decisiones importantes, como saber qué
características son las que más buscan tus clientes o utilizarlos para compartir búsquedas.
Haz lo que quieras o necesites con ellos, pero sácales provecho, porque has hecho una
gran inversión para instalar esta infraestructura, así que tienes que usarla.
Como ya hemos dicho al hablar de Big Data, siempre hablamos de las grandes V del Big
Data. Cuando apareció el Big Data, solo había 3 V, pero ahora son más. Y se les suman
otras constantemente según para qué necesites el Big Data. En la próxima sección de este
artículo, vamos a ver algunas de las V.
Volumen
Como su propio nombre indica, cuando hablamos de Big Data nos referimos a grandes
volúmenes de datos. Así que la cantidad de datos que recibas importa. Pueden ser datos
de valor desconocido, como los datos sobre el número de clics en un sitio web o una
aplicación móvil. Para algunas empresas pueden ser decenas de terabytes de datos,
mientras que para otras pueden ser cientos de petabytes. O es posible que sepas
exactamente la fuente y el valor de los datos que recibes, pero aun así vas a recibir grandes
volúmenes a diario.
Velocidad
La velocidad es la gran V que representa lo rápido que se reciben y tratan los datos. Si
los datos se transfieren directamente a la memoria y no se escriben en un disco, la
velocidad será mayor y, como consecuencia, operarás mucho más deprisa y los datos se
proporcionarán prácticamente en tiempo real. Pero para esto también hace falta una
forma de evaluar los datos en tiempo real. La velocidad es también la gran V más
importante en ámbitos como el aprendizaje automático y la inteligencia artificial.
Variedad
La variedad se refiere a los tipos de datos que están disponibles. Cuando trabajas con
tantos datos, debes saber que muchos de ellos son no estructurados y semiestructurados
(texto, audio, vídeo, etc.). Habrá que procesar aún más los metadatos para que todos
puedan entenderlos.
Veracidad
La veracidad se refiere a lo exactos que son los datos del conjunto de datos. Puedes
recopilar muchos datos de redes sociales o sitios web, pero ¿cómo puedes asegurarte de
que los datos son exactos y correctos? Si usas datos de mala calidad sin comprobarlos,
puedes tener problemas. Los datos inciertos pueden dar lugar a análisis imprecisos y
llevarte a tomar decisiones equivocadas. Así que siempre debes comprobar los datos y
cerciorarte de disponer de suficientes datos precisos para obtener resultados válidos y
relevantes.
Valor
Como decimos, no todos los datos citados tienen valor y pueden utilizarse para tomar
decisiones comerciales. Es importante conocer el valor de los datos que tienes a tu
disposición. Tendrás que establecer una forma de limpiar los datos y confirmar que son
relevantes para el propósito que tienes en mente.
Variabilidad
Cuando tienes muchos datos, en realidad puedes utilizarlos con muy distintos fines y
formatearlos de distintas maneras. No es fácil recoger tantos datos, analizarlos y
gestionarlos de la manera más adecuada, así que lo normal es usarlos varias veces. Eso es
lo que significa la variabilidad: la opción de utilizar los datos con distintos fines.
Ya sabemos muchas cosas sobre el Big Data: qué es, los tipos de datos que existen y las
grandes V. Pero todo esto no serviría de gran cosa si no sabemos qué se puede hacer con
el Big Data y por qué es cada vez más importante.
Los sistemas de citas por Internet pueden ser un 90 % más precisos una vez que las
máquinas aprenden cómo unir perfectamente a las parejas basándose en toda la
información que tienen sobre dos personas. Los fallos o errores informáticos pueden
minimizarse porque sabrás en qué condiciones pueden producirse. Un coche que
conduzca solo puede ser más seguro que cualquier otro coche conducido por una persona
porque no comete errores humanos. Analiza la información del Big Data en tiempo real y
sabe cuál es la mejor ruta para llegar a tu destino a tiempo.
Basándose en toda la información que tienen sobre sus clientes, ahora las empresas
pueden predecir con exactitud qué segmentos de sus clientes querrán comprar sus
productos y en qué momento, y así sabrán cuál es el mejor momento para lanzarlos. El Big
Data ayuda además a las empresas a desarrollar su actividad de una forma mucho más
eficaz.
Desarrollo de productos
Análisis comparativo
Cuando sabes cómo se comportan tus clientes y puedes observarlos en tiempo real, puedes
comparar sus patrones con los itinerarios que han seguido otros productos parecidos y
saber en qué sentido eres más fuerte que tus competidores.
Source: B.telligent
Experiencia del cliente
El mercado es tan grande que es difícil que un producto consiga destacar como único. Así
que para poder distinguirte debes esforzarte en personalizar la experiencia de tus
clientes. El Big Data te permite recopilar datos de redes sociales, visitas en Internet,
registros de llamadas y otras fuentes para mejorar la experiencia de las interacciones o
maximizar el valor que ofreces.
Aprendizaje automático
El aprendizaje automático ahora está muy de moda y todo el mundo quiere saber más.
Ahora podemos crear máquinas que aprenden por sí solas y la capacidad para hacerlo
viene del Big Data y de los modelos aprendizaje automático que se han desarrollo gracias a
él.
Fraude y conformidad
Hacking… todos lo odiamos, pero cada vez es más frecuente. Uno trata de hacerse pasar
por tu marca, otro intenta vender tus datos y los datos de tus clientes… Los hackers son
cada día más creativos. Pero sucede lo mismo con los requisitos de seguridad y
conformidad: cambian constantemente. El Big Data puede ayudarte a identificar patrones
de datos que son indicios de fraude y sabrás cuándo y cómo reaccionar ante ellos.
Tus analistas de datos pueden encontrar muchos usos para tus datos y averiguar cómo
conectar los distintos tipos de datos que tienes. Puedes usar estos datos para publicar
investigaciones oficiales y dar más notoriedad a tu marca.