Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Max Weber
Compromisos del estudiante.
El estudiante deberá comprometerse a entregar las actividades y tareas a tiempo y
Como estudiar
Compromisos del docente
Me comprometo a responder todas las inquietudes planteadas por cada uno de ustedes a lo
Flujo de Datos en
Tiempo Real Data warehouse
CRM
Procesamiento de
Eventos
Datos Herramientas de
Estructurados visualización
Datos Semi-
Estructurados Vistas de
negocio
Herramientas de
Datos No
Cubos Data Marts BI
Estructurados
HDFS (Hadoop File Distribution System)
Storage
HADOOP NO-SQL STORE
Flujo de Datos en Procesamiento (Batch y Tiempo Real) Analítica
Files Batch Avanzada
Procesamiento
Batch
Infraestructura
Procesamiento de Datos
El procesamiento batch es aquel que nos permite procesar grandes volúmenes de datos
en tiempos espaciados (ej. cada 15 minutos, cada 3 horas, o diario). Por lo general, deriva
los resultados informáticos de todos los datos que abarca y permite un análisis profundo
de conjuntos de macrodatos. Los sistemas basados en MapReduce, como Amazon EMR,
son ejemplos de plataformas compatibles con los trabajos por lotes.
¿Por qué es importante el procesamiento por lotes?
• Hace que las tareas repetitivas se ejecuten de forma mas eficiente
• Minimizan los errores humanos
• Analiza con mayor profundidad los datos
• Saca conclusiones que marcan líneas de decisión mas profundas
Casos de uso Batch
• Facturación semanal o mensual
• Nóminas
• Procesamiento de inventario
• Investigación médica
• Conversión de datos
Procesamiento de Datos
Mientras que el modo stream es aquel que nos permite procesar datos casi al instante en
que estos son producidos (ej. cada 100 milisegundos o cada segundo). Los datos
de streaming incluyen datos de sensor, eventos y ubicación que las empresas usan para
lograr un análisis en tiempo real y la visibilidad de muchos aspectos de su negocio
Casos de uso Stream Processing
• Fraud detection
• Social media sentiment analysis
• Log monitoring
• Analyzing customer behavior
Mas ejemplos datos streaming
• Análisis de datos
• Aplicaciones IoT
• Análisis Financiero
• Recomendaciones en tiempo real
Diferencias entre procesamiento Batch y Stream
Arquitectura Lambda
Cada capa de la Arquitectura Futura involucra diferentes tecnologías
1
Adquisición e ingesta de
Fuentes de datos Almacenamiento e integración de datos Consumo de datos
datos
Modelado de datos
Amazon
quicksight
Calidad de datos
Files 6
Usuarios de
Procesamiento inteligencia de Casso práctico
4 No SQL negocio
Amazon AWS Data HDFS
Kinesis Pipeline
Streams STORAGE
Datos estructurados y no
estructurados
• PRODUCER API
• CONSUMER API
• STREAMS API
• CONNECTOR API
Arquitectura Kafka
Kafka
• Broker , Es el core de la plataforma. Se encarga del
almacenamiento de los datos de manera organizada y
persistente.
• Topico, flujo de datos sobre un tema en particular
• Particiones, forma en que se dividen los tópicos al
crearlo
• Zookeeper, servicio centralizado que se encarga de
gestionar los brokers
• Topic Replication: Los tópicos deberán tener un factor de replicación > 1
para que cuando se caiga un broker, otro pueda servir los datos.
Aplicaciones de ML Aprendizaje No supervisado
En el aprendizaje No Supervisado los datos de
entrenamiento no incluyen Etiquetas.
Aprendizaje Supervisado
En el Aprendizaje Supervisado los datos para el entrenamiento
incluyen la solución deseada, llamada “etiquetas” (labels).
Aprendizaje por refuerzo
Sistema será un “agente autónomo” que deberá explorar
Aplicaciones de Machine Learning “un espacio” desconocido y determinar las acciones a llevar
a cabo mediante prueba y error.
• Reconocimiento de Imágenes
• Reconocimiento de Voz Your Text Here
You can simply impress your audience and add a
• Clasificación
unique zing and appeal to your Presentations.
• Predicción
• Segmentación de Audiencia
• Juegos
• Coches autónomos
• Salud
• Economía y Finanzas
• Motores de recomendación
Propuesta Batch
Arquitectura
1
Adquisición e ingesta
Fuentes de datos Almacenamiento e integración de datos Consumo de datos
de datos
4 Prepare profundo y
Shell wget, transformación
Files sftp para C MASTER 6
Usuarios de
archivos Procesamiento Datos limpios y inteligencia de
externos del transformados negocio
buró. de acuerdo al
HDFS
caso de uso
STORAGE
Datos estructurados y
no estructurados