Unidad 4-4

Aplicaciones Empresariales
en entornos Big Data

Ing. Karina Gaona
Magister en Sistemas de Información Gerencial
Docente Tutor
Unidad 4. Canales de procesamiento de datos
Max Weber
Compromisos del estudiante.
El estudiante deberá comprometerse a entregar las actividades y tareas a tiempo y
Queda expresamente prohibida la reproducción total o parcial de este contenido

correctamente desarrolladas.
Es obligación del estudiante estar pendiente de notificaciones y actividades que se realicen
mediante plataforma.
El estudiante deberá realizar preguntas de cualquier tipo de dudas que surjan en el
desarrollo de la asignatura, al docente tutor.
El estudiante tendrá una participación activa y constructiva en los foros académicos
planteados.
El estudiante deberá revisar con responsabilidad los temas anticipadamente según la
programación.
Como estudiar
Compromisos del docente
Me comprometo a responder todas las inquietudes planteadas por cada uno de ustedes a lo

largo del curso, desde los diferentes canales de comunicación del campus virtual.
Me comprometo a calificar los talleres en un plazo de máximo 2 días a partir de la fecha
límite de entrega.
Me comprometo a notificar anticipadamente las pautas de alguna actividad en especifico.
Enviaré recordatorios del tema que se abordará en la nueva semana de clases.
Utilizaré herramientas digitales durante las clases para complementar el proceso de
enseñanza y aprendizaje.
Instrucciones de estudio de la materia
Leer con atención cada concepto y tema planteado.

Completar las auto-evaluaciones de forma responsable.
Los estudiantes deberán dar respuesta a los foros, debidamente fundamentada y de su
propio intelecto.
Revisar detenidamente los videos de las clases grabadas.
Participar constructivamente en los foros, mensajería, sesiones prácticas, entre otras.
Adquisición e Integración y almacenamiento
Fuentes de datos Ingesta de datos de datos Data Lake Consumo
de datos
Data Lake
Flujo de Datos en
Tiempo Real Data warehouse
CRM
Procesamiento de
Eventos
Datos Herramientas de
Estructurados visualización
Datos Semi-
Estructurados Vistas de
negocio
Herramientas de
Datos No
Cubos Data Marts BI
Estructurados
HDFS (Hadoop File Distribution System)
Storage
HADOOP NO-SQL STORE
Flujo de Datos en Procesamiento (Batch y Tiempo Real) Analítica
Files Batch Avanzada
Procesamiento
Batch
Herramientas de Gobierno, Metadata y Trazado de datos
Infraestructura
Procesamiento de Datos
El procesamiento batch es aquel que nos permite procesar grandes volúmenes de datos
en tiempos espaciados (ej. cada 15 minutos, cada 3 horas, o diario). Por lo general, deriva
los resultados informáticos de todos los datos que abarca y permite un análisis profundo
de conjuntos de macrodatos. Los sistemas basados en MapReduce, como Amazon EMR,
son ejemplos de plataformas compatibles con los trabajos por lotes.
¿Por qué es importante el procesamiento por lotes?
• Hace que las tareas repetitivas se ejecuten de forma mas eficiente
• Minimizan los errores humanos
• Analiza con mayor profundidad los datos
• Saca conclusiones que marcan líneas de decisión mas profundas
Casos de uso Batch
• Facturación semanal o mensual
• Nóminas
• Procesamiento de inventario
• Investigación médica
• Conversión de datos
Procesamiento de Datos
Mientras que el modo stream es aquel que nos permite procesar datos casi al instante en
que estos son producidos (ej. cada 100 milisegundos o cada segundo). Los datos
de streaming incluyen datos de sensor, eventos y ubicación que las empresas usan para
lograr un análisis en tiempo real y la visibilidad de muchos aspectos de su negocio
Casos de uso Stream Processing
• Fraud detection
• Social media sentiment analysis
• Log monitoring
• Analyzing customer behavior
Mas ejemplos datos streaming
• Análisis de datos
• Aplicaciones IoT
• Análisis Financiero
• Recomendaciones en tiempo real
Diferencias entre procesamiento Batch y Stream
Arquitectura Lambda
Cada capa de la Arquitectura Futura involucra diferentes tecnologías
1
Adquisición e ingesta de
Fuentes de datos Almacenamiento e integración de datos Consumo de datos
datos
Internas y externas Procesamiento de Data Lake

datos en tiempo real
y batch 2 HADOOP 3 Datos estructurados 5
Usuarios avanzados/
analítica avanzada
Modelado de datos
Amazon
quicksight
Calidad de datos
Files 6
Usuarios de
Procesamiento inteligencia de Casso práctico
4 No SQL negocio
Amazon AWS Data HDFS
Kinesis Pipeline
Streams STORAGE
Datos estructurados y no
estructurados
7 Gobierno de datos, metadatos, seguridad y trazado de datos

Apache Hadoop
Apache Spark
Spark Streaming
Kafka – Canalización
Kafka se ejecuta como un clúster en uno o más
servidores que pueden abarcar múltiples
centros de datos
• PRODUCER API
• CONSUMER API
• STREAMS API
• CONNECTOR API
Arquitectura Kafka
Kafka
• Broker , Es el core de la plataforma. Se encarga del
almacenamiento de los datos de manera organizada y
persistente.
• Topico, flujo de datos sobre un tema en particular
• Particiones, forma en que se dividen los tópicos al
crearlo
• Zookeeper, servicio centralizado que se encarga de
gestionar los brokers
• Topic Replication: Los tópicos deberán tener un factor de replicación > 1
para que cuando se caiga un broker, otro pueda servir los datos.
Aplicaciones de ML Aprendizaje No supervisado
En el aprendizaje No Supervisado los datos de
entrenamiento no incluyen Etiquetas.
Aprendizaje Supervisado
En el Aprendizaje Supervisado los datos para el entrenamiento
incluyen la solución deseada, llamada “etiquetas” (labels).
Aprendizaje por refuerzo
Sistema será un “agente autónomo” que deberá explorar
Aplicaciones de Machine Learning “un espacio” desconocido y determinar las acciones a llevar
a cabo mediante prueba y error.
• Reconocimiento de Imágenes
• Reconocimiento de Voz Your Text Here
You can simply impress your audience and add a
• Clasificación
unique zing and appeal to your Presentations.
• Predicción
• Segmentación de Audiencia
• Juegos
• Coches autónomos
• Salud
• Economía y Finanzas
• Motores de recomendación
Propuesta Batch
Arquitectura
1
Adquisición e ingesta
Fuentes de datos Almacenamiento e integración de datos Consumo de datos
de datos
Internas y Procesamiento de Data Lake

externas datos en batch
2 Carga inicial 3 Prepare Inicial 5
Usuarios
BASE Datos B RAW avanzados/
Trx Clientes, A LANDING Datos originales analítica avanzada
cuentas, Datos con formato y
prestamos, crudos en una limpieza
tarjetas. su forma y inicial.
estado
Base original
Clientes
Tarjetas
Detalle de uso
tarjetas
4 Prepare profundo y
Shell wget, transformación
Files sftp para C MASTER 6
Usuarios de
archivos Procesamiento Datos limpios y inteligencia de
externos del transformados negocio
buró. de acuerdo al
HDFS
caso de uso
STORAGE
Datos estructurados y
no estructurados
EN LAS CAPAS 2, 3 Y 4 SE PLANTEA ALMACENAMIENTO HDFS

Herramientas
Lecturas complementarias
• Spark: Conceptos básicos antes de codificar https://sitiobigdata.com/2020/03/13/spark-conceptos-
basicos
• Procesamiento de Big data con Spark https://www.baoss.es/apache-spark/
• Aprendiendo Apache Kafka (parte 1): Introducción https://enmilocalfunciona.io/aprendiendo-apache-
kafka-parte-1/
• Aprendiendo Apache Kafka (parte 2): Conceptos básicos https://enmilocalfunciona.io/aprendiendo-
apache-kafka-parte-2-2
Gracias

Unidad 4-4

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Unidad 4-4

Cargado por

Copyright:

Formatos disponibles

Aplicaciones Empresariales

en entornos Big Data

Queda expresamente prohibida la reproducción total o parcial de este contenido

Queda expresamente prohibida la reproducción total o parcial de este contenido

Queda expresamente prohibida la reproducción total o parcial de este contenido

Herramientas de Gobierno, Metadata y Trazado de datos

Internas y externas Procesamiento de Data Lake

7 Gobierno de datos, metadatos, seguridad y trazado de datos

Internas y Procesamiento de Data Lake

EN LAS CAPAS 2, 3 Y 4 SE PLANTEA ALMACENAMIENTO HDFS

También podría gustarte