Está en la página 1de 1

Big Data Generado Por Personas, El Reto Desestructurado.

La gente genera grandes


cantidades de datos cada día a través de sus actividades en varias redes sociales
como Facebook, Twitter y LinkedIn. O compartiendo fotografías en sitios como
Instagram, Flickr o Picasa. Y compartiendo vídeos en sitios web como Youtube.
Además, una enorme cantidad de información es generada por blogs y comentarios,
búsquedas en internet, más mensajes de texto, correos electrónicos y a través de
documentos personales. La mayoría de estos datos es texto denso y desestructurado,
que no se adecua a un modelo de datos bien definido. Podemos considerar estos datos
que contengan ocasionalmente alguna descripción adjunta. Esta gran actividad nos
lleva a un enorme crecimiento de datos. ¿ Sabías que en un solo día, los usuarios
de Facebook producen más datos que todas las búsquedas académicas en bibliotecas de
los Estados Unidos juntas? Veamos algunos volúmenes similares de datos diarios de
algunas de las mayores plataformas en red. Es sorprendente que estos números están
en el rango del Petabyte para la actividad diaria. Un Petabyte son mil Terabytes.
El verdadero tamaño de los datos mayoritariamente desestructurados generados por
humanos trae muchos retos. Datos desestructurados se refieren a datos que no
cumplen con un modelo de datos predefinido. Así que sin modelo relacional no
tenemos SQL. No hay prácticamente nada que no almacenemos en un tradicional sistema
de control de base de datos relacional. Considera un tique de compra de la tienda
de comestibles. Tiene una sección para la fecha, una sección para el nombre de la
tienda, y una sección para el total de la compra. Este es un ejemplo de estructura.
Los humanos generan gran cantidad de datos desestructurados en forma de texto. No
tienen un formato dado. Mira todos los documentos que has escrito hasta ahora. En
conjunto, son un grupo de datos desestructurado que has generado personalmente. De
hecho, del 80 al 90 % de todos los datos en el mundo son desestructurados y la
cantidad crece rápidamente. Ejemplos de datos desestructurados generados por
personas incluyen textos, imágenes, vídeos, audios, búsquedas en internet y correos
electrónicos. Además, debido a su rápido crecimiento los principales retos de los
datos desestructurados incluido los múltiples formatos de datos, como páginas web,
imágenes, PDFs, power point, XML y otros formatos que son principalmente
construidos para ser utilizados por humanos. Piensa en ello, aunque puedo ordenar
mi correo por fecha, emisor y título. Sería realmente difícil escribir un programa,
para categorizar todos mis mensajes de correo basándose en su contenido y
organizarlos para mi por lo tanto otro reto de datos generados por humanos es el
volumen y la rápida generación de datos, lo que nosotros llamamos velocidad.
Estudia por un momento este gráfico de información, y mira que ocurre en un minuto
en internet, y considera cuanto aporta. incluso, la confirmación de datos
desestructurados normalmente consume tiempo y es costoso. El coste y el tiempo del
proceso de adquirir, almacenar, limpiar, recuperar y procesar datos
desestructurados puede ser mucha inversión antes de que podamos comenzar a cosechar
valor del proceso. Puede ser bastante difícil encontrar las herramientas y gente
para implementar tal proceso y conseguir valor al fin. Resumiendo, aunque hay una
enorme cantidad de datos generados por personas, la mayoría de estos datos son
desestructurados. Los retos de trabajar con datos desestructurados no deberían ser
tomados a la ligera. A continuación, veremos cómo las empresas están abordando
estos retos para ganar conocimiento. Y así obtener valor de trabajar con datos
generados por personas.

También podría gustarte