Big Data Generado Por Personas, El Reto Desestructurado.
La gente genera grandes
cantidades de datos cada día a través de sus actividades en varias redes sociales como Facebook, Twitter y LinkedIn. O compartiendo fotografías en sitios como Instagram, Flickr o Picasa. Y compartiendo vídeos en sitios web como Youtube. Además, una enorme cantidad de información es generada por blogs y comentarios, búsquedas en internet, más mensajes de texto, correos electrónicos y a través de documentos personales. La mayoría de estos datos es texto denso y desestructurado, que no se adecua a un modelo de datos bien definido. Podemos considerar estos datos que contengan ocasionalmente alguna descripción adjunta. Esta gran actividad nos lleva a un enorme crecimiento de datos. ¿ Sabías que en un solo día, los usuarios de Facebook producen más datos que todas las búsquedas académicas en bibliotecas de los Estados Unidos juntas? Veamos algunos volúmenes similares de datos diarios de algunas de las mayores plataformas en red. Es sorprendente que estos números están en el rango del Petabyte para la actividad diaria. Un Petabyte son mil Terabytes. El verdadero tamaño de los datos mayoritariamente desestructurados generados por humanos trae muchos retos. Datos desestructurados se refieren a datos que no cumplen con un modelo de datos predefinido. Así que sin modelo relacional no tenemos SQL. No hay prácticamente nada que no almacenemos en un tradicional sistema de control de base de datos relacional. Considera un tique de compra de la tienda de comestibles. Tiene una sección para la fecha, una sección para el nombre de la tienda, y una sección para el total de la compra. Este es un ejemplo de estructura. Los humanos generan gran cantidad de datos desestructurados en forma de texto. No tienen un formato dado. Mira todos los documentos que has escrito hasta ahora. En conjunto, son un grupo de datos desestructurado que has generado personalmente. De hecho, del 80 al 90 % de todos los datos en el mundo son desestructurados y la cantidad crece rápidamente. Ejemplos de datos desestructurados generados por personas incluyen textos, imágenes, vídeos, audios, búsquedas en internet y correos electrónicos. Además, debido a su rápido crecimiento los principales retos de los datos desestructurados incluido los múltiples formatos de datos, como páginas web, imágenes, PDFs, power point, XML y otros formatos que son principalmente construidos para ser utilizados por humanos. Piensa en ello, aunque puedo ordenar mi correo por fecha, emisor y título. Sería realmente difícil escribir un programa, para categorizar todos mis mensajes de correo basándose en su contenido y organizarlos para mi por lo tanto otro reto de datos generados por humanos es el volumen y la rápida generación de datos, lo que nosotros llamamos velocidad. Estudia por un momento este gráfico de información, y mira que ocurre en un minuto en internet, y considera cuanto aporta. incluso, la confirmación de datos desestructurados normalmente consume tiempo y es costoso. El coste y el tiempo del proceso de adquirir, almacenar, limpiar, recuperar y procesar datos desestructurados puede ser mucha inversión antes de que podamos comenzar a cosechar valor del proceso. Puede ser bastante difícil encontrar las herramientas y gente para implementar tal proceso y conseguir valor al fin. Resumiendo, aunque hay una enorme cantidad de datos generados por personas, la mayoría de estos datos son desestructurados. Los retos de trabajar con datos desestructurados no deberían ser tomados a la ligera. A continuación, veremos cómo las empresas están abordando estos retos para ganar conocimiento. Y así obtener valor de trabajar con datos generados por personas.