Está en la página 1de 15

1 Contenido

Introducción ......................................................................................................... 3

La Era de los Datos, el “nuevo petróleo” .............................................................. 3

¿Qué es Big Data?............................................................................................... 4

Características, actividades y roles en Big Data .................................................. 6

Ciclo de Vida de la Información ......................................................................... 10

Conclusiones ..................................................................................................... 13

Bibliografía .........................................................................................................
Objetivos

Los objetivos principales de esta clase son:

Desarrollar un mayor entendimiento del contexto que vivimos y la nueva Era


de los Datos.
Entender la importancia de los datos como uno de los activos más
estratégicos, el nuevo petróleo.
Conocer que es Big Data y cual son sus aspectos básicos.

DIPLOMADO VIRTUAL EN: BIG DATA BUSINESS INTELLIGENCE


UNIDAD DIDÁCTICA 1: BIG DATA Y BUSINESS
DOCUMENTO: INTELLIGENCE
Pág. FUNDAMENTOS DEL BIG
DATA
2
Introducción

Los avances tecnológicos están acelerando la transformación de todos los


negocios a un ritmo desconocido hasta ahora. Se están desarrollando capacidades
nuevas impensables hace no tanto tiempo. Adicionalmente el ritmo de desarrollo
tecnológico está siendo muy rápido y se generan grandes oportunidades
alrededor de estas nuevas tecnologías y capacidades.

El principal reto al que nos enfrentamos es la adopción de estas nuevas tecnologías


y la transformación de los modelos de negocio tradicionales. Las barreras
establecidas se están rompiendo y hay un traspaso de poder de las empresas al
consumidor.

Alrededor de esta evolución tecnológica y con el desarrollo de múltiples dispositivos


y aplicaciones, se ha iniciado un proceso de generación masiva de datos que
nos permite ampliar y profundizar en el conocimiento de las distintas realidades
(humanas, sociales, medioambientales, etc.)

Las nuevas tecnologías de Big Data proporcionan la capacidad de explotación de


todos estos datos generando grandes oportunidades en el desarrollo de la
inteligencia de negocio.

La Era de los Datos, el “nuevo petróleo”

DIPLOMADO VIRTUAL EN: BIG DATA BUSINESS INTELLIGENCE


UNIDAD DIDÁCTICA 1: BIG DATA Y BUSINESS
DOCUMENTO: INTELLIGENCE
Pág. FUNDAMENTOS DEL BIG
DATA
3
A nivel mundial diariamente se están generando simultáneamente enormes
cantidades de datos en distintos formatos y de distintas fuentes.1

Los datos se están convirtiendo en el nuevo recurso natural, la nueva materia


prima del mundo, transformando industrias y profesiones. Los datos son la nueva
base competitiva para cualquier empresa, y su adecuado uso y explotación es
imprescindible para la supervivencia.

Podemos identificar nuevas empresas que han desarrollado su modelo de


negocio basado en la explotación de los datos que gestionan. Compañías como
Amazon, Facebook, Airbnb, Netflix, cuyo principal valor ha sido desarrollar
potentes motores de recomendación para sus usuarios, han motivado que
empresas de todos los sectores inicien programas de Big Data centrando sus
esfuerzos e inversiones en disponer de los mecanismos necesarios para explotar
mejor su información e incrementar su valor.

¿Qué es Big Data?

Hoy en día, prácticamente todo lo que hacemos deja un rastro o huella digital que
puede ser procesado para mejorar nuestro conocimiento y valor. Las principales
fuentes de datos son:

Datos generados por las personas (videos, fotos, comportamientos en redes


sociales, etc.)

DIPLOMADO VIRTUAL EN: BIG DATA BUSINESS INTELLIGENCE


UNIDAD DIDÁCTICA 4: BIG DATA Y BUSINESS INTELLIGENCE
DOCUMENTO: FUNDAMENTOS DEL BIG DATA
Pág. 4
Datos generados por máquinas (información de aviones, cámaras de
seguridad, dispositivos médicos, etc.)

Datos generados por las empresas internamente (información de la


operativa interna, de empleados, de clientes, etc.)

Big Dataes la capacidad de procesar grandes volúmenes de datos en múltiples


formatos y a gran velocidad con el objetivo de aportar valor al negocio. Para
poder llevar a cabo este procesamiento de datos se utiliza un sistema de
almacenamiento en un único repositorio o Data Lake, a gran escala que proporciona
una gran capacidad de cómputo o procesamiento.

Considerando la cantidad de datos que se están generando cada segundo 2 la


aparición de la tecnología Cloud Computing ha sido fundamental para disponer de
las capacidades de almacenamiento y escalabilidad requeridas para Big Data.
Permite adquirir capacidades de almacenamiento al mismo tiempo que se van
necesitando, y escalar con velocidad, acotando los costes al ser recursos
compartidos entre diferentes empresas.

DIPLOMADO VIRTUAL EN: BIG DATA BUSINESS INTELLIGENCE


UNIDAD DIDÁCTICA 4: BIG DATA Y BUSINESS INTELLIGENCE
DOCUMENTO: FUNDAMENTOS DEL BIG DATA
Pág. 5
Características, actividades y roles en Big Data

Big Data lleva implícitas las siguientes características principales, y es lo que


principalmente establece las diferencias con la gestión tradicional de la información:

Las 5 “Vs” de Big Data


Volumen ■ Hace referencia al tamaño del conjunto de datos a manejar.
(cantidad Actualmente es habitual tener que procesar cantidades de datos
de datos) en la escala de los Gigabytes o Terabytes por lo que las técnicas
de almacenamiento en memoria no son viables. Por ello se han
desarrollado nuevas formas de almacenamiento y procesamiento
de datos para su explotación
Velocidad ■ Se refiere no solo a la alta frecuencia con la que se generan
(rapidez en nuevos datos, sino a la necesidad de dar respuesta a la información
la en tiempo real. Las nuevas herramientas permiten analizar en
generación tiempo real grandes volúmenes de datos sin almacenamiento
de datos) previo.
Variedad ■ Se refiere a la naturaleza diversa de la información a manejar,
(diferentes tanto interna como externa
fuentes y ■ Nos encontramos con dos tipos de datos:
formatos) Datos Estructurados, datos que encajan en un modelo de
filas y columnas o bases de datos relacionales (por ejemplo:
hojas Excel). La mayoría de los datos utilizados hoy por las
empresas son datos estructurados almacenados en data
warehouses, fáciles de capturar, almacenar y explotar.

DIPLOMADO VIRTUAL EN: BIG DATA BUSINESS INTELLIGENCE


UNIDAD DIDÁCTICA 4: BIG DATA Y BUSINESS INTELLIGENCE
DOCUMENTO: FUNDAMENTOS DEL BIG DATA
Pág. 6
Datos No Estructurados, datos no organizados en un
formato predefinido, por ejemplo: Tweets, blogpost,
imágenes, vídeos, etc. El 80% de los datos se consideran
no estructurados. Y únicamente el 1% de los datos no
estructurados son utilizados actualmente.
Veracidad ■ Es el grado de confianza que se establece sobre los datos a
(fiabilidad utilizar. Dentro de la caracterización del Big Data la Veracidad es
de los de gran importancia para un analista de datos, ya que la veracidad
datos de los mismos determinará la calidad de los resultados y la
confianza en los mismos. Por lo tanto, un alto volumen de
información que crece a velocidad muy rápida y basada en datos
estructurados y desestructurados y provenientes de una gran
variedad fuentes, hacen inevitable dudar del grado de veracidad de
los mismos. Por ello, dependiendo de la aplicación que se les
dé, su veracidad puede ser imprescindible.
Valor ■ Representa el aspecto más relevante del Big Data. A medida
(capacidad que aumenta el volumen y complejidad de los datos, su valor
de marginal disminuye considerablemente, debido a su dificultad de
trasformar explotación. La principal razón para implantar una estrategia de Big
datos en Data es para extraer valor de los datos
valor)

Las actividades a desarrollar dentro de Big Data se pueden clasificar de la


siguiente manera:

DIPLOMADO VIRTUAL EN: BIG DATA BUSINESS INTELLIGENCE


UNIDAD DIDÁCTICA 4: BIG DATA Y BUSINESS INTELLIGENCE
DOCUMENTO: FUNDAMENTOS DEL BIG DATA
Pág. 7
Integración, supone incorporar todos los datos, de las diferentes fuentes
y orígenes, en un único repositorio que pueda ser compartido por
diferentes Data Scientist para los diferentes usos. Por ejemplo, en una

DIPLOMADO VIRTUAL EN: BIG DATA BUSINESS INTELLIGENCE


UNIDAD DIDÁCTICA 4: BIG DATA Y BUSINESS INTELLIGENCE
DOCUMENTO: FUNDAMENTOS DEL BIG DATA
Pág. 8
empresa de distribución se trataría de integrar datos de clientes, productos vendidos,
stock, proveedores, precios, empleados, contabilidad, información del uso de los
distintos canales, etc. En Big Data una de las tecnologías más utilizadas para poder
utilizar un centro de procesamiento único es Hadoop Distributed File System, o
HDFS.

Hadoop es un framework open-source para el almacenamiento y procesamiento de


datos, es una de las principales herramientas implantadas en todas las empresas
con programas de Big Data.

Análisis, es el proceso de desarrollo de información y conocimiento a


través de uso y combinación de los datos. Por ejemplo, en una empresa de
distribución sería determinar los productos que un cliente desea comprar, a
través de la combinación de datos de comportamiento en la web, productos
que ha visitado y productos que han comprado otros clientes similares.

Visualización, es el proceso de representación del conocimiento o ideas


generadas de una manera entendible para los equipos y personas no
técnicas. Es fundamental que en la visualización se ponga de manifiesto la
realidad que se ha identificado o “storytelling” y sobre la que se puede
generar valor y tomar decisiones. Por ejemplo, en la empresa de
distribución sería visualizar los diferentes tipos de clientes que tenemos en
base a criterios de segmentación no convencionales (tradicionalmente se
segmentan los clientes por patrones de sexo, edad, geografía, etc.) como
pueden ser sus vinculaciones con otros clientes, productos ecológicos,
sistemas operativos, etc.

DIPLOMADO VIRTUAL EN: BIG DATA BUSINESS INTELLIGENCE


UNIDAD DIDÁCTICA 4: BIG DATA Y BUSINESS INTELLIGENCE
DOCUMENTO: FUNDAMENTOS DEL BIG DATA
Pág. 9
Seguridad, la privacidad de la información es un aspecto crítico en la Era
de los Datos. Es necesario establecer procesos estrictos y robustos para
mantener a salvo los datos de las personas. Igualmente es necesario
transparencia sobre cómo se capturan, almacenan y se usan los datos.
Aparte de la seguridad física de los sistemas es necesario desarrollar una
estrategia de control de acceso a la información, siendo éste precisamente
un punto crítico debido a la cantidad de información y a la naturaleza tan
dispar de la misma. Se debe garantizar la seguridad controlando tanto el
acceso al sistema como la información contenida en él.

Gobierno, la principal finalidad del gobierno es velar por que los datos estén
disponibles, que sean entendibles por las personas que los van a utilizar y
que sean fiables, que tengan la calidad requerida para el uso que se les va
a dar. El desarrollo de Big Data en una empresa requiere disponer de nuevos
roles y responsabilidades para llevar a cabo las actividades descritas. Los
principales nuevos roles necesarios son:

Data Scientist, es la persona que trata y analiza los datos. Desarrollan un


conjunto de métodos, técnicas y teorías para extraer ideas y nuevas
perspectivas de la información.

Data Engineer, es la persona que prepara la infraestructura Big Data para


ser utilizada por Data Scientist. Diseñan, construyen e integran datos de
varios recursos y los administran. Su objetivo es optimizar el rendimiento del
ecosistema de datos de las empresas.

DIPLOMADO VIRTUAL EN: BIG DATA BUSINESS INTELLIGENCE


UNIDAD DIDÁCTICA 4: BIG DATA Y BUSINESS INTELLIGENCE
DOCUMENTO: FUNDAMENTOS DEL BIG DATA
Pág. 10
Chief Data Officer, es la persona responsable de definir la estrategia,
políticas, procedimientos y herramientas para una adecuada gestión de los
datos y la información de la empresa, implantando una cultura del dato que
ponga el valor de los datos en el centro de la organización

Ciclo de Vida de la Información

La gestión del Ciclo de Vida de la información tiene como objetivo optimizar el flujo
de la información desde que se incorpora a la plataforma Big Data, hasta que se
consume, maximizando su utilidad para la empresa y resolviendo los siguientes
retos:

Desarrollar, validar y productivizar la información para las aplicaciones analíticas


en el menor tiempo posible.
Mantener el rendimiento de la plataforma a pesar del incremento en el volumen
de datos.
Prevenir la publicación accidental o intencional de datos sensibles en entornos
inadecuados.

Al resolver y prevenir que estos retos se conviertan en problemas, una adecuada


gestión del ciclo de vida de la información ayuda a reducir costes, reducir riesgos y
promover la agilidad de negocio.

DIPLOMADO VIRTUAL EN: BIG DATA BUSINESS INTELLIGENCE


UNIDAD DIDÁCTICA 4: BIG DATA Y BUSINESS INTELLIGENCE
DOCUMENTO: FUNDAMENTOS DEL BIG DATA
Pág. 11
Fases del Ciclo de Vida de la Información

■ Desde que se identifica la necesidad de información,


Aprovisionamiento
hasta que se realiza la inclusión de los datos en el Data
de Datos
Lake
■ Desde que se ingestan los datos en el Data Lake,
Preparación de
hasta que se encuentran consumibles por parte de los
Datos
Data Scientist
■ Desde que el Data Scientist tienen los datos
Descubrimiento y
disponibles para su exploración, hasta que identifica la
Exploración
información que necesita.
■ Desde que los Data Scientist comienzan el desarrollo
Modelado e
de un modelo, hasta que ese modelo se decide pasar a
Interpretación
producción.
■ Desde que se selecciona la información que se va a
Validación pasar a producción, hasta que esa información se valida
y se pasa a producción
■ Desde que la información se pasa a producción, hasta
Operativización
que el proceso productivo la consume.

Para una adecuada gestión del Ciclo de Vida de la información es necesario


disponer de una serie de elementos esenciales:

DIPLOMADO VIRTUAL EN: BIG DATA BUSINESS INTELLIGENCE


UNIDAD DIDÁCTICA 4: BIG DATA Y BUSINESS INTELLIGENCE
DOCUMENTO: FUNDAMENTOS DEL BIG DATA
Pág. 12
Inventario de Datos

Un inventario de datos es la lista exhaustiva de datos residentes en el sistema.


Los Data Scientist requieren tener un amplio conocimiento del contexto de los
datos para valorar la inclusión en diversos modelos. Los metadatos
(características que se incluyen sobre cada dato específico) publicados en el
inventario sirven para poder identificar, de la forma más completa y autónoma,
las fuentes de datos adecuadas para los análisis. Son un marco de referencia
para entender los datos, el contexto que permite describir el contenido y el uso
de los datos dentro del negocio.

Glosario de términos de negocio

El glosario de términos de negocio alberga un repositorio de términos comunes


para todas las áreas de una empresa. Contiene la descripción y cálculo, así
como una ordenación por categorías de cada término de negocio. De esta forma
se consigue una comunicación efectiva en toda la organización y una buena base
de conocimiento para los Data Scientist.

Modelo de Datos

El modelo de datos contiene información sobre los datos y cómo se relacionan.


Permite documentar elementos descriptivos, identificativos y relacionales de las
tablas de datos. Los descriptivos sirven para conocer el contenido de cada objeto
(tablas, columnas, vistas, etc.), los identificativos nos permiten conocer los campos
que necesitamos para localizar un registro único y los relacionales nos permiten
unir entre sí datos de diferentes tablas.
DIPLOMADO VIRTUAL EN: BIG DATA BUSINESS INTELLIGENCE
UNIDAD DIDÁCTICA 4: BIG DATA Y BUSINESS INTELLIGENCE
DOCUMENTO: FUNDAMENTOS DEL BIG DATA
Pág. 13
El modelo de datos permite una representación gráfica que facilita la comprensión
de las posibles vías de interconectar la información y la búsqueda de fuentes de
datos adecuada para los Data Scientist.

Conclusiones

El proceso de generación masiva de datos que estamos viviendo genera grandes


oportunidades para el desarrollo de los negocios y convierte la adecuada gestión de
los datos en un aspecto crítico para la supervivencia.

El desarrollo de capacidad de Big Data es un pilar fundamental para poder explotar


los datos, considerando el volumen y variedad de los mismos y la velocidad a la que
se generan y se toman decisiones.

DIPLOMADO VIRTUAL EN: BIG DATA BUSINESS INTELLIGENCE


UNIDAD DIDÁCTICA 4: BIG DATA Y BUSINESS INTELLIGENCE
DOCUMENTO: FUNDAMENTOS DEL BIG DATA
Pág. 14
Bibliografía

The Economist, Mayo 2017, “Data is giving rise to a new economy”;


https://www.economist.com/news/briefing/21721634-how-it-shaping-up-
datagiving-rise-new-economy

The Economist, Mayo 2017, “The world’s most valuable resource is no longer oil,
but data”;https://www.economist.com/news/leaders/21721656-data-
economydemands-new-approach-antitrust-rules-worlds-most-valuable-resource

DIPLOMADO VIRTUAL EN: BIG DATA BUSINESS INTELLIGENCE


UNIDAD DIDÁCTICA 4: BIG DATA Y BUSINESS INTELLIGENCE
DOCUMENTO: FUNDAMENTOS DEL BIG DATA
Pág. 15

También podría gustarte