La mayoría de las personas puede identificar escenarios de Big
Data relacionados con el mundo web e Internet, que incluyen, el análisis de registros web y datos de flujos de clics, la comprensión de los patrones de compra y las afinidades de los productos que se pueden determinar a partir de ellos. Igualmente, todos reconocemos escenarios Big Data en los datos de las redes sociales; por ejemplo, los mensajes de estado en redes sociales son un gran recurso para comprender las preferencias y hábitos de los minoristas, y el tipo de normas sociales que pueden ser muy instructivas para las compañías que ofrecen productos en el mercado. No sería muy complejo identificar que las torres de telefonía móvil producen todo tipo de datos sobre las llamadas que conectan; ocurre lo mismo con los dispositivos que pasan cerca de las torres, que registran el tiempo y la intensidad de la señal, así como las plataformas, los números de teléfono y los nombres de las marcas de esos dispositivos. Hay otros escenarios Big Data, que quizás, cueste más trabajo identificar, por ejemplo, los escenarios de la cadena de suministro, que producen toneladas de datos resumidos en las etiquetas de productos y la cantidad de scanners que las leen en diferentes instalaciones de esta cadena de suministro. La tecnología Big Data se puede usar para detectar y prevenir actividades delictivas y fraudes. Otro escenario muy importante es su empleo para diseñar y modificar las estrategias de inversión que se basan en todos estos datos. En cuanto al uso en temas de sanidad, la utilidad es extraordinaria, ya sea, utilizando Big Data en el lado operativo de la atención médica, ayudando a los hospitales a funcionar de manera más eficiente para que comprendan la mejor manera de distribuir servicios, atención, procedimientos y camas disponibles; y también, Big Data se puede utilizar en el laboratorio de investigación para ayudar a comprender la información genómica para descubrir y curar enfermedades. En procesos productivos, puede usarse Big Data para leer los datos que provienen de sensores a lo largo de la cadena de producción, para controlar el proceso o para construir modelos predictivos que ayuden a las empresas a comprender el resultado alcanzado. Además, el uso de tecnologías Big Data puede posibilitar a las empresas de fabricación sustituir equipos antiguos por equipos nuevos y evitar tiempos de inactividad costosos debido a roturas inesperadas. Hay una gran cantidad de escenarios en los que Big Data puede influir en cómo funcionan los negocios y cómo funciona la sociedad.
Antecedentes del big data
Para entender el Big Data, hay que entender de dónde viene. Todo empieza con la analítica de datos aplicada a los negocios, popularmente conocida como disciplina de Business Intelligence o inteligencia de negocios. Este término se remonta a 1958, cuando el investigador Hans Peter Luhn, de IBM, empieza a hablar del valor de los datos y de la importancia de estos para optimizar procesos organizativos. A pesar de que nace en 1958, no será hasta 19 cuando realmente se empieza a hablar de Business Intelligence tal y como se conoce el día de hoy. Howard Dresner, uno de los gurús de este sector, consolidó el término cuando empezó a referirse a él como el conjunto de sistemas de software que apoyan a a la toma de decisiones de negocio, basados en la recogida de análisis de hechos o datos. Como vemos, Big Data no es algo que sea realmente nuevo. Lo que cambió a finales de los años a mantener y analizar el enorme recurso que, en materia de datos, tenía a su disposición. La necesidad de las tecnologías Big Data surge con la evolución y popularización del World Wide Web. A medida que iba avanzando e incrementándose el uso de Internet, y el almacenamiento de datos, en Data Centers, en nube, las empresas tecnológicas comenzaron a enfrentarse a todos estos retos y a la necesidad de emplear Big Data; ya que las condiciones y características de los datos hacen imposible el tratamiento de datos a través de sistemas transaccionales convensionales.
Qué favorece al big data
Hasta hace muy poco, las tecnologías de análisis de datos y mercados se centraban mucho más en dispositivos caros, almacenamiento en red y otras tecnologías a las que las organizaciones más pequeñas no tenían acceso. La tecnología Big Data, en su mayor parte, es compatible con hardware básico, servidores baratos y discos baratos. En la actualidad, las unidades de disco se han vuelto mucho más densas y baratas, lo que ha favorecido el abaratamiento de costes de almacenamiento. No solo es más barato analizar los datos, sino que también es más barato almacenarlos. Esta disminución del coste tiene una gran importancia para procesos y proyectos de Aprendizaje automático o Machine Learning y Aprendizaje profundo o Deep Learning, ya que necesitan mayor capacidad de computo. Estas contribuciones tecnológicas a menos coste van a continuar impulsando nuevas tecnologías como Blockchain. Podemos resumir, entonces, que hay dos factores fundamentales que favorecen el Big Data, que son: Mayor ancho de banda y abaratamiento de las mismas y Mayor capacidad de almacenamiento a menos coste. Otro factor a tener en cuenta es que la integración de la economía general de muchas empresas basadas en la web ha creado grandes productores y consumidores de datos. Las empresas basadas en la web están produciendo todo tipo de datos y, además, son más capaces de actuar y cambiar en función de lo que los datos les dicen, porque gran parte de su infraestructura se basa, de hecho, en software, en lugar de planta física e infraestructura física. Tener Internet, y cada vez más conectividad a menos coste, ha supuesto una revolución en los datos. El almacenamiento en la nube es otro aspecto que favorece el empleo de tecnologías Big Data. La existencia de un almacenamiento en la nube no es algo tan reciente como podemos pensar; antes se almacenaban los datos en Data Centers, que estaban comunicados por líneas dedicadas. Los Data Centers de hoy siguen almacenando los datos con una conexión diferente, utilizando tecnologías altamente probadas de interconexión. El aporte real del almacenamiento en la nube es que todo el mundo puede acceder desde cualquier sitio, porque es Internet, y es totalmente universal, pero sigue siendo, desde el punto de vista conceptual, lo mismo: un Data Center. El almacenamiento de datos en la nube tiene mucho que ver con Big Data. La transformación ocurre en tiempo real, la capacidad de respuesta es inmediata, las comunicaciones facilitan que cada vez se pueda disponer de más datos. Por ejemplo, Alexa es un servicio de voz alojado en la nube que responde de forma inmediata a preguntas con alta precisión, tratando datos muy voluminosos, estructurados o no, empleando para ellos tecnologías de inteligencia artificial y aprendizaje de máquinas sobre tratamiento de Big Data. Muchas de estas tecnologías Big Data utilizan software de código abierto, lo que es muy favorecedor, ya que además de ser más barato, tiende a crear comunidades. En el caso de Big Data, se han creado comunidades que son muy entusiastas, y eso también impulsa el desarrollo.
Datos grandes vs. datos pequeños
Durante la gestión empresarial y de negocio, vivimos entre procesos que son de Bid data y los que no lo son. A continuación, veremos cómo se pueden diferenciar en casos de Definición de objetivos, Ubicación, Preparación de datos, Estructura de datos y Contenidos, Longevidad y Análisis. Definición de objetivos. Mientras los datos no Big data, generalmente se recopilan para un objetivo específico y concreto, Big data puede tener un objetivo en mente cuando comienza el proyecto, luego las cosas pueden evolucionar o tomar direcciones inesperadas, por lo que va a depender incluso de lo que vayamos descubriendo por el camino. Ubicación. Los datos no Big data suelen estar en un solo lugar, y casi siempre en un solo archivo de computadora. Big data puede estar en múltiples archivos, en múltiples servidores, en computadoras, en diferentes ubicaciones geográficas. Preparación de datos. El usuario final suele preparar los datos no Big data para sus propios fines, pero con Big data los datos los prepara un grupo de personas, los analiza un segundo grupo de personas y luego los utiliza un tercer grupo de personas, y estas personas tienen diferentes propósitos y pueden tener diferentes disciplinas. Estructura de datos y el contenido. Los datos no Big data, generalmente, están altamente estructurados, como una hoja de cálculo de Excel, con tablas de filas y columnas. Big data puede ser desestructurado, puede tener muchos formatos en archivos involucrados en distintas disciplinas y puede vincularse a otros recursos. Longevidad. Los datos no Big data, generalmente, se guardan durante un período específico de tiempo después de que finaliza el proyecto, porque hay un punto final claro. Con Big data los datos pueden pasarse de un proyecto a otro, reutilizarse para aprovechar el coste de obtención y tratamiento. Pueden complementarse entre proyectos como datos contextuales de cosas que ocurrieron en otros tiempos, agregarse o vincularse con archivos diferentes. Por lo tanto, tiene una vida útil mucho más larga e incierta en comparación con un pequeño conjunto de datos. Análisis. Con datos no Big data, generalmente, es posible analizar todos los datos a la vez en un solo procedimiento desde un único archivo de computadora. Sin embargo, con Big data, debido a su tamaño y distribución, en archivos y servidores diferentes es posible que tenga que pasar por la extracción, revisión, reducción, normalización, transformación y otros pasos para descartar la totalidad y tratar con una parte de los datos.