Está en la página 1de 8

Repaso final de módulo

I. Resumen de módulo

II. Caso práctico de repaso con solución


Lección 1 de 2

I. Resumen de módulo

Repasa los conocimientos adquiridos en este módulo

En este módulo, se ha tratado de situar el fenómeno del big data en su contexto:


Unidad 1

En primer lugar, se ha definido el término “big data”, que se usa en varios contextos, aunque destacan
dos: 

1.  Macrodatos, un activo del que se puede extraer valor

2. Tecnologías que permiten resolver problemas que las tecnologías tradicionales no pueden abordar,
ya sea porque se requieren sistemas de almacenamiento y procesamiento distribuido, ya sea
porque se trata de procesar flujos continuos de datos o ya sea porque tratamos con datos muy
variados y no necesariamente estructurados. 

Unidad 2

Otra forma de entender el mundo big data es desde la perspectiva de su integración con los sistemas
legacy, que tradicionalmente se han basado en almacenes de datos, data marts y procesos ETL en lotes.
La comparación que se ha realizado en la segunda unidad entre el mundo de la inteligencia de negocio y
el del big data facilita el entendimiento de lo que aporta este último en un entorno corporativo. Y debería
llevar también a entender los puntos fuertes de cada uno, dejando claro que los lagos de datos y los
almacenes de datos están condenados a entenderse y complementarse.

Unidad 3
E l id d t h f di d l d fi i ió d l t l í big data ll
En la unidad tres, se ha profundizado en la definición de las tecnologías big data como aquellas que
resuelven uno de estos problemas: 

volumen

velocidad 

variedad 

Se ha visto cómo este marco de análisis permite clasificar las tecnologías big data más relevantes. Y
así, se puede decir que Hadoop y Spark están diseñados para procesar grandes volúmenes de datos,
que Spark Streaming lo está para procesar flujos y tomar decisiones en tiempo casi real y que las
soluciones NoSQL nos dan un abanico de posibilidades que permiten trabajar con una amplia variedad
de formatos.

Unidad 4

En la cuarta unidad, se han ofrecido varios marcos y modelos que se pueden utilizar como referencia a la
hora de analizar el impacto del big data en las empresas. Puede analizarse como:

Un proceso de transformación digital que impacta sobre los procesos, la conectividad, la toma de
decisiones y la innovación. 

Un viaje desde un estado incipiente de madurez a otro donde la empresa tiene ya plenamente
desarrolladas e integradas todas las capacidades necesarias para un aprovechamiento óptimo del
valor de sus datos. 

Puede analizarse desde el punto de vista de una estrategia de partida que tendrá que ser aterrizada
y plasmada en numerosas iniciativas para el desarrollo de una serie de capacidades. 

Puede plantearse como un estado al que tender: una empresa data-driven que ha conseguido


implantar plenamente las buenas prácticas señaladas por el movimiento DataOps.

Por último se ha expuesto cómo el cambio se debe gestionar de forma integral en las tres conocidas
Por último, se ha expuesto cómo el cambio se debe gestionar de forma integral en las tres conocidas
dimensiones de tecnología, procesos y personas. Respecto a esta última dimensión, es fundamental
entender las características de los perfiles que necesitará la organización, algo que se ha abordado al
caracterizar a los esos perfiles en cuanto a funciones, conocimientos y herramientas necesarias para
desempeñar sus funciones.

Unidad 5

En la unidad final, se han abordado diversas maneras de estudiar cómo el uso de macrodatos puede
generar valor en una empresa. 
Una opción es ver qué nuevas oportunidades de negocio abren las tecnologías big data en cuanto a
volumen, velocidad y variedad. 
Otra es utilizar un modelo de madurez de negocio big data. 
Una tercera es analizar el impacto sobre los principales factores que intervienen en la definición de un
modelo de negocio. 

Por último, para terminar el módulo, se ha hecho un repaso a algunos de los principales sectores donde se
está utilizando big data actualmente y se han enumerado una serie de aplicaciones con características
relevantes de cada uno de ellos.
Lección 2 de 2

II. Caso práctico de repaso con solución

Aplica los conocimientos adquiridos en este módulo

ENUNCIADO

Un banco desea implementar una solución big data que le permita personalizar la oferta de productos y
servicios ofrecidos a sus clientes. Se desea, por ejemplo, que, cuando un cliente entre en la web del
banco, se recolecten los clics de la navegación que realiza sobre la marcha. Estos eventos deben pasar
a procesarse en tiempo real, se les debe aplicar una serie de reglas y, en caso de que se cumplan ciertos
patrones, se le enviará al cliente un SMS para ofrecerle servicios o información adicional relacionada con
las páginas del banco que ha visitado. Proponer una arquitectura a nivel funcional y tecnológico capaz de
cumplir con estos requisitos. 

VER SOLUCIÓN

SOLUCIÓN

Se podría utilizar una arquitectura lambda como la siguiente: 

Los puntos más destacables son:


Procesamiento en tiempo casi real, mediante Spark Streaming, de los eventos que van llegando al
sistema. 

Utilización de un motor de reglas para comprobar si el evento cumple con determinados patrones.
En caso de que así sea, se enviará a un canal gestionado por Kafka (que actúa como bus de
eventos) y se hará llegar al módulo que se encarga de hacer el envío. 

Para poder asociar datos del cliente (por ejemplo, su email) con el evento que se está procesando,
utilizamos una base de datos NoSQL como Hbase, que permite consultar estos datos con muy
bajas latencias. Para parametrizar el motor de reglas, podríamos utilizar otra NoSQL como
MongoDB, que nos dará mucha flexibilidad con los datos de configuración. 

Por último, además de su procesamiento en tiempo real, podemos enviar en paralelo datos a un
lago de datos basado en Hadoop. Esta información podrá ser más tarde utilizada en modo batch
para hacer informes o para analizarla con Hive, una herramienta de Hadoop que permite hacer
consultas tipo SQL.  

También podría gustarte