Está en la página 1de 29

Aplicaciones Empresariales

en entornos Big Data


Ing. Karina Gaona
Magister en Sistemas de Información Gerencial
Docente Tutor
Unidad 4. Canales de procesamiento de datos

Max Weber
Compromisos del estudiante.
El estudiante deberá comprometerse a entregar las actividades y tareas a tiempo y

Queda expresamente prohibida la reproducción total o parcial de este contenido


correctamente desarrolladas.
Es obligación del estudiante estar pendiente de notificaciones y actividades que se realicen
mediante plataforma.
El estudiante deberá realizar preguntas de cualquier tipo de dudas que surjan en el
desarrollo de la asignatura, al docente tutor.
El estudiante tendrá una participación activa y constructiva en los foros académicos
planteados.
El estudiante deberá revisar con responsabilidad los temas anticipadamente según la
programación.

Como estudiar
Compromisos del docente
Me comprometo a responder todas las inquietudes planteadas por cada uno de ustedes a lo

Queda expresamente prohibida la reproducción total o parcial de este contenido


largo del curso, desde los diferentes canales de comunicación del campus virtual.
Me comprometo a calificar los talleres en un plazo de máximo 2 días a partir de la fecha
límite de entrega.
Me comprometo a notificar anticipadamente las pautas de alguna actividad en especifico.
Enviaré recordatorios del tema que se abordará en la nueva semana de clases.
Utilizaré herramientas digitales durante las clases para complementar el proceso de
enseñanza y aprendizaje.
Instrucciones de estudio de la materia
Leer con atención cada concepto y tema planteado.

Queda expresamente prohibida la reproducción total o parcial de este contenido


Completar las auto-evaluaciones de forma responsable.
Los estudiantes deberán dar respuesta a los foros, debidamente fundamentada y de su
propio intelecto.
Revisar detenidamente los videos de las clases grabadas.
Participar constructivamente en los foros, mensajería, sesiones prácticas, entre otras.
Adquisición e Integración y almacenamiento
Fuentes de datos Ingesta de datos de datos Data Lake Consumo
de datos
Data Lake

Flujo de Datos en
Tiempo Real Data warehouse
CRM
Procesamiento de
Eventos

Datos Herramientas de
Estructurados visualización

Datos Semi-
Estructurados Vistas de
negocio
Herramientas de
Datos No
Cubos Data Marts BI
Estructurados
HDFS (Hadoop File Distribution System)
Storage
HADOOP NO-SQL STORE
Flujo de Datos en Procesamiento (Batch y Tiempo Real) Analítica
Files Batch Avanzada
Procesamiento
Batch

Herramientas de Gobierno, Metadata y Trazado de datos

Infraestructura
Procesamiento de Datos

El procesamiento batch es aquel que nos permite procesar grandes volúmenes de datos
en tiempos espaciados (ej. cada 15 minutos, cada 3 horas, o diario). Por lo general, deriva
los resultados informáticos de todos los datos que abarca y permite un análisis profundo
de conjuntos de macrodatos. Los sistemas basados en MapReduce, como Amazon EMR,
son ejemplos de plataformas compatibles con los trabajos por lotes.
¿Por qué es importante el procesamiento por lotes?
• Hace que las tareas repetitivas se ejecuten de forma mas eficiente
• Minimizan los errores humanos
• Analiza con mayor profundidad los datos
• Saca conclusiones que marcan líneas de decisión mas profundas
Casos de uso Batch
• Facturación semanal o mensual
• Nóminas
• Procesamiento de inventario
• Investigación médica
• Conversión de datos
Procesamiento de Datos
Mientras que el modo stream es aquel que nos permite procesar datos casi al instante en
que estos son producidos (ej. cada 100 milisegundos o cada segundo). Los datos
de streaming incluyen datos de sensor, eventos y ubicación que las empresas usan para
lograr un análisis en tiempo real y la visibilidad de muchos aspectos de su negocio
Casos de uso Stream Processing
• Fraud detection
• Social media sentiment analysis
• Log monitoring
• Analyzing customer behavior
Mas ejemplos datos streaming
• Análisis de datos
• Aplicaciones IoT
• Análisis Financiero
• Recomendaciones en tiempo real
Diferencias entre procesamiento Batch y Stream
Arquitectura Lambda
Cada capa de la Arquitectura Futura involucra diferentes tecnologías
1
Adquisición e ingesta de
Fuentes de datos Almacenamiento e integración de datos Consumo de datos
datos

Internas y externas Procesamiento de Data Lake


datos en tiempo real
y batch 2 HADOOP 3 Datos estructurados 5
Usuarios avanzados/
analítica avanzada

Modelado de datos
Amazon
quicksight

Calidad de datos

Files 6
Usuarios de
Procesamiento inteligencia de Casso práctico

4 No SQL negocio
Amazon AWS Data HDFS
Kinesis Pipeline
Streams STORAGE
Datos estructurados y no
estructurados

7 Gobierno de datos, metadatos, seguridad y trazado de datos


Apache Hadoop
Apache Spark
Spark Streaming
Kafka – Canalización
Kafka se ejecuta como un clúster en uno o más
servidores que pueden abarcar múltiples
centros de datos

• PRODUCER API
• CONSUMER API
• STREAMS API
• CONNECTOR API
Arquitectura Kafka
Kafka
• Broker , Es el core de la plataforma. Se encarga del
almacenamiento de los datos de manera organizada y
persistente.
• Topico, flujo de datos sobre un tema en particular
• Particiones, forma en que se dividen los tópicos al
crearlo
• Zookeeper, servicio centralizado que se encarga de
gestionar los brokers
• Topic Replication: Los tópicos deberán tener un factor de replicación > 1
para que cuando se caiga un broker, otro pueda servir los datos.
Aplicaciones de ML Aprendizaje No supervisado
En el aprendizaje No Supervisado los datos de
entrenamiento no incluyen Etiquetas.
Aprendizaje Supervisado
En el Aprendizaje Supervisado los datos para el entrenamiento
incluyen la solución deseada, llamada “etiquetas” (labels).
Aprendizaje por refuerzo
Sistema será un “agente autónomo” que deberá explorar
Aplicaciones de Machine Learning “un espacio” desconocido y determinar las acciones a llevar
a cabo mediante prueba y error.
• Reconocimiento de Imágenes
• Reconocimiento de Voz Your Text Here
You can simply impress your audience and add a
• Clasificación
unique zing and appeal to your Presentations.
• Predicción
• Segmentación de Audiencia
• Juegos
• Coches autónomos
• Salud
• Economía y Finanzas
• Motores de recomendación
Propuesta Batch

Arquitectura
1
Adquisición e ingesta
Fuentes de datos Almacenamiento e integración de datos Consumo de datos
de datos

Internas y Procesamiento de Data Lake


externas datos en batch
2 Carga inicial 3 Prepare Inicial 5
Usuarios
BASE Datos B RAW avanzados/
Trx Clientes, A LANDING Datos originales analítica avanzada
cuentas, Datos con formato y
prestamos, crudos en una limpieza
tarjetas. su forma y inicial.
estado
Base original
Clientes
Tarjetas
Detalle de uso
tarjetas

4 Prepare profundo y
Shell wget, transformación
Files sftp para C MASTER 6
Usuarios de
archivos Procesamiento Datos limpios y inteligencia de
externos del transformados negocio
buró. de acuerdo al
HDFS
caso de uso

STORAGE
Datos estructurados y
no estructurados

EN LAS CAPAS 2, 3 Y 4 SE PLANTEA ALMACENAMIENTO HDFS


Herramientas
Lecturas complementarias
• Spark: Conceptos básicos antes de codificar https://sitiobigdata.com/2020/03/13/spark-conceptos-
basicos
• Procesamiento de Big data con Spark https://www.baoss.es/apache-spark/
• Aprendiendo Apache Kafka (parte 1): Introducción https://enmilocalfunciona.io/aprendiendo-apache-
kafka-parte-1/
• Aprendiendo Apache Kafka (parte 2): Conceptos básicos https://enmilocalfunciona.io/aprendiendo-
apache-kafka-parte-2-2
Gracias

También podría gustarte