Está en la página 1de 5

CCPG1055 - SISTEMAS DISTRIBUIDOS Y COMPUTACIÓN EN LA NUBE

PARALELO 1
I TÉRMINO 2020

Examen (parcial) de diseño


Docente: Ph.D. Cristina Lucia Abad Robalino
Estudiante
➢ Juan Pablo Cadena Aguilar
Fecha de inicio y fin de trabajo: desde 16/07/2019 hasta 17/07/2020

INSTRUCCIONES:
Lea los requerimientos del proyecto en el archivo adjunto. Realice el diseño y suba un
PDF con las respuestas a TODAS las preguntas del examen (son 4).

Actividades por desarrollar:


Un laboratorio de biotecnología necesita una plataforma eficiente y escalable
que le permita almacenar y manipular la gran cantidad de datos generada
por sus diferentes proyectos y medios de recolección de datos como sensores,
imágenes de satélites, de secuenciación, etc. La amplia gama de arquitecturas
y modelos de programación presenta oportunidades y desafíos para los
científicos e ingenieros de análisis de datos biológicos. El laboratorio lo ha
contratado a Ud. para que les proponga una arquitectura en la nube (con
AWS o Azure o GCP) que cumpla con los siguientes requerimientos.
• Requerimientos funcionales:
1. El sistema debe poder generar reportes visuales con los resultados
de los análisis de los datos.
2. El diseño debe incluir una o más soluciones de almacenamiento de
datos, según Ud. considere conveniente.
3. Se debe permitir realizar consultas de datos ad hoc o interactivas,
así como soportar la generación de reportes diarios, semanales y
mensuales.
4.Debe haber una interfaz web para la administración de colecciones
de especímenes.
5.Debe haber una manera de realizar búsquedas en un registro de
resultados de los análisis.
• Requerimientos no funcionales:
1. Se debe poder procesar datos que llegan a gran velocidad y que,
por lo tanto, representan un gran volumen de datos (el laboratorio
produce cientos de TB de datos de secuencia por día).
2. Se debe soportar aplicaciones con tiempos de ejecución
extremadamente largos (una aplicación de análisis de datos biológicos
puede correr durante días o incluso meses).

Examen (parcial) de diseño


• Entregable: Un PDF que contenga los siguientes ítems, sobre los cuales
Ud. será evaluado según el puntaje indicado.

1. [20 pts] Diagrama del diseño (arquitectura) propuesto (usando


https://www.draw.io/ o a mano).

2. [10 pts] Liste cada uno de los componentes mostrados en su


arquitectura y explique por qué lo incluye, así como indique qué producto
específico usaría y por qué (ej., qué base de datos). Justifique su
respuesta.
Azure IoT Hub: Servicio para la ingestión y comunicación de datos en dispositivos
IoT como los sensores a través de diferentes protocolos como MQTT y
HTTPS así como incluir el uso de WebSockets.
Event Hub: Servicio para obtener los datos en tiempo real como las imágenes
satelitales de manera sencilla y segura.
Azure Data Lake Store: Servicio de análisis a petición que simplifica los
macrodatos en un repositorio no estructurado y puede almacenar hasta
Petabytes de información. Este servicio es para la base de datos original
donde se almacenan los datos obtenidos desde los sensores y satélites.

Examen (parcial) de diseño


Data Explorer: Servicio de análisis de datos en tiempo real a grandes volúmenes
de sitios webs o dispositivos IoT.
Databricks: Servicio de análisis de macrodatos e inteligencia artificial en un
entorno con Apache Spark que admite librerías como TensorFlow para
modelos de aprendizaje profundo de datos.
Stream Analytics: Herramienta confiable y escalable de análisis en la nube de
las transmisiones y eventos sin servidor con latencias muy bajas.
Encargado esencialmente de la información desde Event Hubs.
Cosmos DB: Base de datos NoSQL para almacenar la información estructurada
y analizada para la posterior presentación en el negocio y estadístico al
usuario con tiempos de respuestas de menos de 10 ms y disponibilidad de
99,999%.
Azure Machine Learning Studio: Herramienta de análisis exploratorio de datos
basado en aprendizaje de máquina para generar reportes
Power BI: Medio para la presentación de datos organizados mediante tablas y
gráficas para análisis empresarial y estadístico.
Azure Function: Función encargada de la consulta interactiva de los datos
estructurados y analizados.

3. [10 pts] De los elementos que Ud. ha incluido en su diseño, diga


cuáles pertenecen a cada uno de los tres componentes de un Pipeline
de Big Data (según las diapositivas del vídeo 2 del tema de Plataformas
de Procesamiento Distribuido). NOTA: Es posible que alguno(s) de los
componentes de su diseño no pertenezcan a ninguna de las tres
categorías.
Almacenamiento:
-Data Lake: Azure Data Lake Store
-Bases de datos: Cosmos DB
Cómputo:
-Procesamiento por lotes: Data Explorer
-Procesamiento Interactivo: Databricks
-Procesamiento de streams: Stream Analytics
Mensajeria: Event Hub

4. [20 pts] Haga un presupuesto para un año, usando los precios reportados por
el proveedor en la nube de su elección.
Debido a que se almacenaran cientos de TB de información diarios, se asumirán
los planes de algunos servicios que soporten un total de mensajes por día
aproximados, por lo tanto, no serán los planes más baratos, pero tampoco los más
caros.

Examen (parcial) de diseño


Servicio Detalle de plan Precio anual
Azure IoT Hub Estándar edición S2 6M $3000
mensajes (4 KB)/día
Event Hub Dedicado, facturado por $59997.24
unidad de capacidad (UC)
Azure Data Lake Store Reservación de 1 año en $15050
Caliente
Data Explorer Reservación de 1 año en $16071315
instancia de
almacenamiento optimizada
DS14v2 con 4TB de SSD
Databricks Reservación de 1 año de $ 11229335
almacenamiento optimizado
L80s v2 con 640.00 GiB de
RAM
Stream Analytics Estándar por unidad de $963.60
transmisión con promedio
de 730 horas al mes
Cosmos DB Aproximado de 150PT al $1501315.20
mes
Azure Machine Learning Studio Estándar S2 $12000.72
Power BI Premium $59940
Azure Function Premium $3726.48
Total $28956643.24

5. [20 pts] De las siguientes preguntas, seleccione dos (2) y contéstelas en su


reporte.
Seleccione las que su grupo se sienta más preparado para contestar. Cuáles
seleccione no afectará su nota.
■ [10 pts] ¿Su diseño permite que nuevos reportes sean fáciles de incluir en la
plataforma? Explique.
Sí, el diseño propuesto permite que nuevos reportes sean fáciles de incluir en la
plataforma a través de la interfaz gráfica de Power BI Desktop la cual se integra
de manera muy fácil con programas propietarios de Microsoft como Excel, hoja de
cálculos usada frecuentemente para realizar reportes, y permite otros formatos de
archivos comunes como csv, pbix y rdl. La manipulación de estos archivos para
ser subidos al servidor de Power BI es sencilla y permitirá generar gráficos
estadísticos a los cuales el usuario promedio está familiarizado en un entorno de
ofimática, sin tener mucha experiencia en el campo de TI o computación en la
nube.

Examen (parcial) de diseño


■ [10 pts] Para el laboratorio es importante que sus sistemas mantengan un buen
nivel de confiabilidad y sean tolerantes a fallos. Describa las posibles fuentes de
falla en su diseño propuesto, y cómo se recuperaría de estas fallas.
Al utilizar sensores pueden existir muchos problemas como hardware, protocolos,
redes físicas y lógica de la aplicación. También se pueden encontrar
inconvenientes al no usar SDK actualizados.
o Por lo que se propone el uso de herramientas de monitoreo, diagnóstico y
resolución de problemas dentro de Azure Iot Hub.
o Configurar alertas de desconexiones de dispositivos.
o Revisar registros de conectividad, errores de consultas y de métricas a
través del portal de telemetría de Azure Cosmos DB.
o Verificar que los puertos utilizados por ciertos protocolos se encuentren
abiertos y disponibles.
o Mantenimiento preventivo y correctivo del hardware.

Puede haber fallas y limitaciones en el almacenamiento por lo que hay que ser
cuidadoso con las APIs soportadas en Data Lake Storage.
o Se pueden revisar registros de diagnósticos a través de la PowerShell.
o Analizar los consumos de procesamiento en nodos a través del cliente de
base de datos, así como los tiempos de respuesta en las consultas a través
de dicha estructura

Referencias:
• S. C. Gupta, “Architecture for High-Throughput Low-Latency Big Data Pipeline on
Cloud,” Medium, 03-Jun-2020. [Online]. Available:
https://towardsdatascience.com/scalable-efficient-big-data-analytics-machine-
learning-pipeline-architecture-on-cloud-4d59efc092b5. [Accessed: 24-Jul-2020].
• Rolyon, “Azure documentation,” Microsoft Docs. [Online]. Available:
https://docs.microsoft.com/en-us/azure. [Accessed: 24-Jul-2020].
• R. Sarachaga, Published by Raul Sarachaga Business Intelligence Consultant
View all posts by Raul Sarachaga, P. by R. Sarachaga, R. Sarachaga, Business
Intelligence Consultant View all posts by Raul Sarachaga, View all posts by Raul
Sarachaga, and J. R. says: “Crear un Azure SQL Data Warehouse,” Business
Intelligence and Analytics, 02-May-2017. [Online]. Available:
https://aprendebi.wordpress.com/2017/05/02/crear-un-azure-sql-data-
warehouse/. [Accessed: 24-Jul-2020].

Examen (parcial) de diseño

También podría gustarte