0 calificaciones0% encontró este documento útil (0 votos)
14 vistas3 páginas
La Ciencia de Datos se refiere al análisis de grandes conjuntos de datos (Big Data) que se acumulan rápidamente en grandes volúmenes y variedades. El término Big Data se define por las 3 V's: Volumen (grandes cantidades de datos de múltiples fuentes), Velocidad (datos que fluyen rápidamente), y Variedad (datos en múltiples formatos estructurados y no estructurados). La Ciencia de Datos utiliza métodos analíticos para extraer conocimiento e información relevante de estos grandes
La Ciencia de Datos se refiere al análisis de grandes conjuntos de datos (Big Data) que se acumulan rápidamente en grandes volúmenes y variedades. El término Big Data se define por las 3 V's: Volumen (grandes cantidades de datos de múltiples fuentes), Velocidad (datos que fluyen rápidamente), y Variedad (datos en múltiples formatos estructurados y no estructurados). La Ciencia de Datos utiliza métodos analíticos para extraer conocimiento e información relevante de estos grandes
La Ciencia de Datos se refiere al análisis de grandes conjuntos de datos (Big Data) que se acumulan rápidamente en grandes volúmenes y variedades. El término Big Data se define por las 3 V's: Volumen (grandes cantidades de datos de múltiples fuentes), Velocidad (datos que fluyen rápidamente), y Variedad (datos en múltiples formatos estructurados y no estructurados). La Ciencia de Datos utiliza métodos analíticos para extraer conocimiento e información relevante de estos grandes
Para entender qué es la Ciencia de Datos; es necesario remontarse un poco en la historia;
pues exploramos la ruta del nacimiento del término ciencia de datos, veremos dos temas que se juntan. Primero hay que comprender que es Big Data. De acuerdo a la definición de Gartner realizada en el 2001: Big data es un conjunto de datos de una gran variedad y formatos; que se acumulan en grandes volúmenes y a una velocidad cada vez mayor. A esto es lo que se conoce como las 3 V’s (dimensiones) de la Big Data de las que se hablará más adelante. Un dato es la representación simbólica de un atributo, que puede ser cualitativo o cuantitativo, de la información de un objeto; persona; ser viviente; organización; etc. Por ejemplo: para determinar la información de una persona, se podrían considerar los siguientes atributos: edad; estatura; género; estado de ánimo; color de ojos; etc. Esto nos arrojaría un conjunto de condiciones o situaciones que de por si solos no aportan ninguna información relevante; pero al ser agrupados y analizados se podría determinar cierto valor o hecho que fuera relevante. Estableciendo esto en un contexto simple; el concepto de Big Data se refiere a datos masivos y a menudo no estructurados, en los que las capacidades de procesamiento de las herramientas tradicionales de gestión de datos resultan ser inadecuadas. Big Data puede ocupar terabytes y petabytes de espacio de almacenamiento en diversos formatos, incluidos texto, video, sonido, imágenes y más. Aunque el término Big Data es relativamente nuevo, la tendencia a agrupar y almacenar grandes volúmenes de información para análisis a futuro es muy antigua. El concepto se afianzó a principios de la década de 2000, cuando Doug Laney, un analista de la industria formuló la conocida definición de los tres V’s de la Big Data: Volumen. Las organizaciones recopilan datos de una amplia variedad de fuentes, incluidas transacciones financieras, redes sociales, sensores o máquina a máquina. En el pasado, el almacenamiento hubiera sido un problema, pero las nuevas tecnologías (como el conjunto de utilidades de software denominado Hadoop) facilitan la tarea. Velocidad. Los datos fluyen a una velocidad sin precedentes y, por lo tanto, deben gestionarse de manera oportuna. El uso cada vez más frecuente de etiquetas RFID (identificaciones de radiofrecuencia), sensores y medición inteligente (sistemas de lectura de contadores) aumentan la necesidad de gestionar flujos de datos en tiempo real o casi. Variedad. Los datos llegan en cualquier formato, desde datos estructurados y numéricos en bases de datos tradicionales a no estructuradas, como documentos de texto, correo electrónico, video, audio, datos de cotizaciones y transacciones financieras. Cabe mencionar que estás son características que se empezaron a identificar en este nuevo concepto. Algunas empresas como IBM o SAS han incluido una o hasta dos V’s más; pues al paso del tiempo se han topado con otras problemáticas: La veracidad de los datos, pues es de suma importancia determinar si el dato analizado es relevante o no para el análisis de la información; por ejemplo, si se esta analizando el estado anímico de las manifestaciones por el nuevo alcalde en Paris, Francia; entonces datos como Paris Hilton; Paris, Texas; Café Paris; etc., quedarían descartados. Y la variabilidad, en donde el aumento exponencial de la velocidad y variedad de datos se combina con el hecho de que los flujos pueden ser muy inconsistentes y con picos periódicos. Sin embargo, con el paso del tiempo, Gartner identificó lo que serían las dimensiones; lo cual no se debe de confundir con las V’s de Big Data. En la figura 3, se muestra un gráfico que muestra los tres niveles para la gestión de los datos, con cuatro dimensiones en cada uno. En el primer nivel, están las conocidas características de Big Data; Volumen, Velocidad y Variedad, así como una dimensión de Complejidad. Estás sirven para cuantificar a los datos. El segundo nivel tiene más que ver con el intento de comprender y analizar los datos. Consiste en las dimensiones de Tecnología, Uso generalizado, Clasificación y Contratos. Y, el tercer nivel considera los aspectos relacionados con la reposición y limpieza de datos para mantener la relevancia. Las dimensiones en este nivel consisten en Validación, Vinculación, Fidelidad y Perdurabilidad.