Está en la página 1de 3

¿Qué es exactamente Ciencia de Datos?

Para entender qué es la Ciencia de Datos; es necesario remontarse un poco en la historia;


pues exploramos la ruta del nacimiento del término ciencia de datos, veremos dos temas
que se juntan.
Primero hay que comprender que es Big Data. De acuerdo a la definición de Gartner
realizada
en el 2001: Big data es un conjunto de datos de una gran variedad y formatos; que se
acumulan
en grandes volúmenes y a una velocidad cada vez mayor. A esto es lo que se conoce como
las 3 V’s (dimensiones) de la Big Data de las que se hablará más adelante.
Un dato es la representación simbólica de un atributo, que puede ser cualitativo o
cuantitativo,
de la información de un objeto; persona; ser viviente; organización; etc. Por ejemplo:
para determinar la información de una persona, se podrían considerar los siguientes
atributos:
edad; estatura; género; estado de ánimo; color de ojos; etc. Esto nos arrojaría un
conjunto de condiciones o situaciones que de por si solos no aportan ninguna información
relevante; pero al ser agrupados y analizados se podría determinar cierto valor o hecho
que fuera relevante.
Estableciendo esto en un contexto simple; el concepto de Big Data se refiere a datos
masivos y a menudo no estructurados, en los que las capacidades de procesamiento de las
herramientas tradicionales de gestión de datos resultan ser inadecuadas. Big Data puede
ocupar terabytes y petabytes de espacio de almacenamiento en diversos formatos, incluidos
texto, video, sonido, imágenes y más.
Aunque el término Big Data es relativamente nuevo, la tendencia a agrupar y almacenar
grandes volúmenes de información para análisis a futuro es muy antigua. El concepto se
afianzó
a principios de la década de 2000, cuando Doug Laney, un analista de la industria formuló
la conocida definición de los tres V’s de la Big Data:
Volumen. Las organizaciones recopilan datos de una amplia variedad de fuentes, incluidas
transacciones financieras, redes sociales, sensores o máquina a máquina. En el pasado,
el almacenamiento hubiera sido un problema, pero las nuevas tecnologías (como el conjunto
de utilidades de software denominado Hadoop) facilitan la tarea.
Velocidad. Los datos fluyen a una velocidad sin precedentes y, por lo tanto, deben
gestionarse
de manera oportuna. El uso cada vez más frecuente de etiquetas RFID (identificaciones de
radiofrecuencia),
sensores y medición inteligente (sistemas de lectura de contadores) aumentan la necesidad
de gestionar flujos de datos en tiempo real o casi.
Variedad. Los datos llegan en cualquier formato, desde datos estructurados y numéricos en
bases de datos tradicionales a no estructuradas, como documentos de texto, correo
electrónico,
video, audio, datos de cotizaciones y transacciones financieras.
Cabe mencionar que estás son características que se empezaron a identificar en este nuevo
concepto. Algunas empresas como IBM o SAS han incluido una o hasta dos V’s más; pues
al paso del tiempo se han topado con otras problemáticas: La veracidad de los datos,
pues es de suma importancia determinar si el dato analizado es relevante o no para el
análisis de la información; por ejemplo, si se esta analizando el estado anímico de
las manifestaciones por el nuevo alcalde en Paris, Francia; entonces datos como Paris
Hilton; Paris, Texas; Café Paris; etc., quedarían descartados. Y la variabilidad, en donde el
aumento exponencial de la velocidad y variedad de datos se combina con el hecho de que
los
flujos pueden ser muy inconsistentes y con picos periódicos.
Sin embargo, con el paso del tiempo, Gartner identificó lo que serían las dimensiones;
lo cual no se debe de confundir con las V’s de Big Data. En la figura 3, se muestra un
gráfico que muestra los tres niveles para la gestión de los datos, con cuatro dimensiones
en cada uno. En el primer nivel, están las conocidas características de Big Data; Volumen,
Velocidad y Variedad, así como una dimensión de Complejidad. Estás sirven para cuantificar
a los datos. El segundo nivel tiene más que ver con el intento de comprender y analizar
los datos. Consiste en las dimensiones de Tecnología, Uso generalizado, Clasificación
y Contratos. Y, el tercer nivel considera los aspectos relacionados con la reposición
y limpieza de datos para mantener la relevancia. Las dimensiones en este nivel consisten en
Validación, Vinculación, Fidelidad y Perdurabilidad.

También podría gustarte