0% encontró este documento útil (0 votos)
56 vistas4 páginas

Big Data y Ciencia de Datos: Claves Esenciales

Este documento describe la relación entre Big Data y Ciencia de Datos, explicando que ambos términos están asociados al manejo de grandes volúmenes de datos. Se definen los conceptos clave de cada uno y sus diferencias, destacando que Big Data se caracteriza por sus '7V' y la Ciencia de Datos proporciona las técnicas para analizar grandes cantidades de información.

Cargado por

Marcos F. Paz
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
56 vistas4 páginas

Big Data y Ciencia de Datos: Claves Esenciales

Este documento describe la relación entre Big Data y Ciencia de Datos, explicando que ambos términos están asociados al manejo de grandes volúmenes de datos. Se definen los conceptos clave de cada uno y sus diferencias, destacando que Big Data se caracteriza por sus '7V' y la Ciencia de Datos proporciona las técnicas para analizar grandes cantidades de información.

Cargado por

Marcos F. Paz
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

DIPLOMATURA UNIVERSITARIA EN

• Introducción a la Ciencia de Datos • Ing. María Laura Sánchez Piccardi


CIENCIA DE DATOS

1.2. RELACIÓN ENTRE BIG DATA Y CIENCIA DE DATOS

A
nte el fuerte crecimiento del volumen de datos, no cabe duda de que su gestión es todo un reto.
De hecho, los expertos alertan de que la creación y replicación de datos crecerá a un ritmo más
rápido que la capacidad de almacenamiento instalada.

Fuente: Google

Los distintos tipos de datos no dejan de multiplicarse y aumenta cada día el valor de los
profesionales del Big Data y Data Science. Para el 2025, se estima que se crearán 463 exabytes1 de
información cada día en todo el mundo.

Los datos, la tecnología y el correcto uso de la información son de gran importancia para
cualquier clase de actividad. Por ello, surgen conceptos para la recopilación de estos factores.

Ambos términos, Big Data y Data Science están asociados al manejo de un gran volumen de
datos que no dejarán de multiplicarse. Estas herramientas ayudan a transformar grandes cantidades
de información en valor corporativo, es decir, en datos que favorezcan la toma de decisiones dentro
de los distintos tipos de organizaciones.

Por eso, es imprescindible conocer las definiciones y tareas de Big Data y Data Science, las
cuales se expondrán seguidamente.

Cuando se trata con Big Data, el problema está esencialmente ligado a la Ciencia de Datos.
A veces se confunden los términos. Se identifican los problemas de Big Data con aquellos en que se
referencia al trabajo con bases de datos con características particulares. Éstas frecuentemente son
combinaciones de varias bases.

1. Un exabyte son mil millones de Gb, o 1018 bytes. Equivale a 20 veces todos los libros escritos de la historia hasta 2013, o a 85 veces
el material cultural guardado por Internet Archive.

• 1 • • Universidad Católica de Santiago del Estero •


DIPLOMATURA UNIVERSITARIA EN
• Introducción a la Ciencia de Datos • Ing. María Laura Sánchez Piccardi
CIENCIA DE DATOS

Caracteriza un problema de Big Data su tamaño, complejidad y velocidad de crecimiento de


la base. Todo esto dificulta la captura, gestión, procesamiento y análisis de los datos usando técnicas
convencionales con cierta rapidez. El especialista debe diseñar procesos que garanticen costos de
computación bajos.

Los términos Ciencia de Datos y Big Data, aunque interrelacionados, no tienen el mismo
significado. Existe una gran controversia al respecto. La relación entre la Ciencia de los Datos (Data
Science) con problemas particulares como Analítica de Negocios (Business Analytics), Investigación
de Operaciones (Operations Research), Inteligencia de Negocios (Business Intelligence), Inteligencia
Competitiva (Competitive Intelligence), Análisis de Datos (Data Analysis), Modelaje (Modelling) ,
extracción de conocimientos (Knowledge Extraction, KDD), entre otros grupos de enfoques, se hace
más confuso establecer que técnicas corresponden a una y otra. Lo más común es identificarles sin
hacer una distinción. Más correcto es decir que la Ciencia de los Datos trata con la transformación de
datos usando diversas técnicas computacionales y utilizando métodos lógico-matemáticos. Común-
mente los científicos de datos tratan frecuentemente con algunos de los tipos de problemas particu-
lares en las grandes empresas y existen equipos de especialistas que trabajan en conjunto.

Sin embargo, cuando se trata de empresas medianas se espera que el especialista que em-
plean dé solución a todo problema que le planteen.

BIG DATA Y CIENCIA DE DATOS

El vertiginoso aumento de datos generados en los últimos años, ha servido de incentivo al


desarrollo y evolución de la Ciencia de Datos.

Big Data (conocido también como Datos Masivos, Grandes Datos o Macrodatos) es un tér-
mino aplicado a conjuntos de datos cuyo tamaño o tipo está más allá de la capacidad de las bases de
datos relacionales tradicionales tanto para capturar, gestionar o procesar los datos con baja latencia.
Esos datos provienen de sensores, video, audio, redes, archivos de registro, transacciones, web y re-
des sociales, gran parte de ellos generados en tiempo real y en gran escala.

El análisis de Big Data permite a diferentes tipos de usuarios (analistas, investigadores, usua-
rios comerciales) tomar decisiones utilizando los datos que antes eran inaccesibles o inutilizables.
Mediante el uso de técnicas avanzadas de análisis como análisis de texto, aprendizaje automáti-
co, análisis predictivo, minería de datos y estadísticas, las organizaciones pueden analizar diversas
fuentes de datos no tratadas previamente para obtener nuevas ideas que les permitan tomar mejores
y más rápidas decisiones.

DIFERENCIAS ENTRE DATA SCIENCE Y BIG DATA

Ya se ha analizado anteriormente la terminología Data Science. A con-


tinuación, para entender mejor ambas corrientes, vamos a definir Big
Data. Este es el término con el que nos referimos a un gran número de
datos, que pueden estar estructurados o no. Para explicar el concepto,
se recurre a las 5 “V” que caracterizan al Big Data:

• Volumen: Hablamos de datos o combinaciones de conjuntos de datos


Fuente: Universidad
Complutense de Madrid 2. que no se pueden almacenar en un sistema tradicional.
• Variedad: Agrupa información de diferente tipo y fuente.
• Velocidad: Crece a gran velocidad y, lo que es más importante, obliga a procesarla con rapidez.
• Veracidad: Conocer la fiabilidad de los datos recogidos es fundamental para su correcta explotación.
• Valor: Una gran cuantía de datos dispone, frecuentemente, de información de valor; cómo conse-
guir ese valor de manera eficiente, es un reto diario.

No hay un consenso sobre cuántas “V” han de ser tomadas en consideración y, de hecho, la
lista de éstas se ha ido ampliando.

2. [Link]

• 2 • • Universidad Católica de Santiago del Estero •


DIPLOMATURA UNIVERSITARIA EN
• Introducción a la Ciencia de Datos • Ing. María Laura Sánchez Piccardi
CIENCIA DE DATOS

Ahora podemos afirmar que existen 7 “V” del


Big Data, dos sumadas a las cinco ya descrip-
tas:

• Variabilidad: El entorno del big data es muy


cambiante, así que obliga a los modelos pre-
dictivos y a los trabajadores a estar actuali-
zándose de forma permanente.

• Visualización: El objetivo es convertir las


grandes masas de datos en gráficos que mues-
tren, de forma dinámica y bien estructurada,
los valores más importantes.

PRINCIPALES DIFERENCIAS ENTRE AM-


BOS CONCEPTOS

Big Data se caracteriza, cómo hemos cita-


do anteriormente, por sus “7V”, mientras
que Data Science cuenta con las técnicas ne-
cesarias para analizar dichos volúmenes de
datos.

• El Big Data se distingue por su variedad, ve-


locidad y volumen. Mientras que Data Scien-
ce proporciona los métodos o técnicas para
analizarlos.

• La inteligencia de datos proporciona el po-


tencial de rendimiento. No obstante, es la
ciencia de datos la que utiliza enfoques teó-
ricos y experimentales, además del razona-
miento deductivo e inductivo.

• El análisis de Big Data realiza la extracción


de información útil de grandes volúmenes de
conjuntos de datos. Al contrario, la ciencia de
datos utiliza modelos inteligentes que apren-
Fuente: Google

den de sí mismos, como el Machine Learning


y métodos estadísticos para entrenar a los
ordenadores y obtener predicciones precisas.
De este modo, Data Science no debe confun-
dirse con el análisis del Big Data.

• Big Data se relaciona más con la tecnología


de la computación distribuida y las herra-
mientas y el software de análisis (Hadoop3, Java, etc.). Esto se opone al de Data Science que se enfoca
en estrategias para decisiones de negocios, diseminación de datos utilizando matemáticas, estadís-
ticas, etc.

Se puede afirmar entonces que Data Science no existiría de no ser por el Big Data, dado
que se desenvuelve dentro del ámbito. Sin embargo, el Big Data no tendría (u obtendría) el valor ac-
tual si no fuese gracias a los análisis y métodos usados por la ciencia de datos.

3. Hadoop es una estructura de software de código abierto que proporciona almacenamiento masivo para cualquier tipo de datos,
enorme poder de procesamiento y la capacidad de procesar tareas o trabajos concurrentes virtualmente ilimitados.

• 3 • • Universidad Católica de Santiago del Estero •


DIPLOMATURA UNIVERSITARIA EN
• Introducción a la Ciencia de Datos • Ing. María Laura Sánchez Piccardi
CIENCIA DE DATOS

Universidad Católica de Santiago del Estero


[Link]
semucse@[Link]
Tel (54385) 421-1777 interno 285

Esta obra está licenciada bajo la Licencia Creative Commons


Reconocimiento-No Comercial-SinObraDerivada 4.0 Internacional
[Link]

• 4 • • Universidad Católica de Santiago del Estero •

También podría gustarte