Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1
AGENDA DE LA JORNADA
• Síntesis y preguntas.
2
LOS ROLES INVOLUCRADOS EN EL CICLO DE VIDA DE BIG DATA
Científico
Arquitecto de de datos
Extraer los
datos datos
y Operaciones e
BI infraestructura
Testea y monitorea
Conocimiento de
dominio
Ingeniero en
Conecta y Big Data
Captura Escala
Despliega
Monitorea
Integra
Requerimientos
CI/CD
Stakeholder del
Negocio, (areas y corporativo) Arquitectura y DevOps
desarrollo
3
ELABORACIÓN Y EVALUACIÓN DEL CASO DE NEGOCIO
• Cada proyecto de Análisis de Big Data debe comenzar con la definición de un caso de
negocios que incluya:
• Alcance
• Una justificación bien fundamentada
• Objetivos de negocios
• Presupuestos y otros recursos
• Resultados esperados y como evaluarlos
• El caso de negocios debe estar bien documentado para que pueda ser formalmente
evaluado antes de proceder con el proyecto
• Esta evaluación ayuda a entender los recursos que serán necesarios y cuáles serán los
riesgos y desafíos a los que habrá que enfrentarse.
4
ELABORACIÓN Y EVALUACIÓN DEL CASO DE NEGOCIO
5
ELABORACIÓN Y EVALUACIÓN DEL CASO DE NEGOCIO
• Identificar con claridad los objetivos de negocios y los resultados esperados
facilita la identificación de KPIs para medir el éxito del proyecto.
• Es importante relacionar los objetivos a las 5Vs que caracterizar a Big Data
6
IDENTIFICACIÓN DE LAS FUENTES DE DATOS
• Esta etapa del ciclo de vida tiene por objetivo identificar los
conjuntos de datos, (y sus fuentes), requeridos para el proyecto de
análisis en cuestión
7
ADQUISICIÓN Y FILTRADO DE DATOS
• Durante esta etapa los datos son obtenidos/adquiridos de todas las fuentes de datos
identificadas y sometidas a un proceso de filtrado para eliminar datos inconsistentes o que
no tienen valor para el proyecto de análisis.
• Los datos filtrados deberían poder ser resguardados para otro posibles proyectos de
análisis.
8
ADQUISICIÓN Y FILTRADO DE DATOS - 2
• Una vez que los datos, (internos y externos) han sido filtrados, los mismos deben ser persistidos.
• La metadata debe mantenerse actualizada y disponible a lo largo de toda la vida útil de las
fuentes de datos
9
ADQUISICIÓN Y FILTRADO DE DATOS - 3
• Varias herramientas del mercado,
(propietarias y libres), proveen soporte
automatizado para gestionar metadata
10
EXTRACCIÓN DE DATOS
• Los datos identificados como entradas para el proyecto de análisis pueden tener un
formato incompatible con la solución de Big Data que se está diseñando
• Esta incompatibilidad puede ser mucho más frecuente cuando las fuentes son externas
• La etapa de extracción de datos tiene por objetivo tomar los datos de las diferentes
fuentes y transformarlos, cuando sea necesario, en un formato que sea compatible con
nuestra solución de Big Data.
• La complejidad de este proceso esta determinada por la capacidad del diseño para
procesar diferentes tipos de datos y la complejidad del problema a resolver
11
EXTRACCIÓN DE DATOS - EJEMPLOS
Ejemplo1
Ejemplo 2
13
VALIDACIÓN Y LIMPIEZA DE DATOS
=
OK
14
VALIDACIÓN Y LIMPIEZA DE DATOS
• Para procesamiento batch, esta etapa puede ser implantada a través de un operación
de ETL
• Para procesamiento en tiempo real, se requiere un desarrollo más complejo que debe
ser ejecutado en memoria
• Tener presente que datos que pueden ser inválidos podrían tener valor, dado que
pueden estar ocultando patrones o tendencias. La anormalidad de un dato puede estar
indicando un cambio, en por ejemplo, los hábitos de un conjunto de clientes.
15
AGREGACIÓN Y REPRESENTACIÓN
16
AGREGACIÓN Y REPRESENTACIÓN
Conciliar estas diferencias puede requerir una lógica compleja que se debería ejecuta
automáticamente sin necesidad de intervención humana. Los grandes volúmenes
procesados por las soluciones de Big Data pueden hacer que la agregación de datos sea
una operación que requiera mucho tiempo y esfuerzo.
17
AGREGACIÓN Y REPRESENTACIÓN
• Los potenciales futuros requerimientos de análisis de datos se deben considerar durante esta
etapa para ayudar a fomentar el reuso de activos de datos
• Es importante entender que los mismos datos pueden ser almacenados en muchas formas
diferentes. Una forma puede ser más adecuada para un tipo particular de análisis que otra.
• Por ejemplo, los datos almacenados como BLOB, (Binary Large Object), serían de poca utilidad si el
análisis requiere acceso a campos de datos individuales.
• Una estructura de datos estandarizada por la solución Big Data puede actuar como un
denominador común que puede utilizarse para una serie de técnicas y proyectos de análisis. Esto
puede requerir el establecimiento de un repositorio central de análisis estándar, como una base de
datos NoSQL.
18
AGREGACIÓN Y REPRESENTACIÓN
19
UN VISTA FUNCIONAL CON ENFOQUE EN DATA LAKE
DATA LAKE
Area de datos Reportes
confiables – única operacionales
Area versión de la verdad
Area de
transiente
Datos
de carga
crudos Area de datos
refinados
Auto servicio
Area de
Datos Semi y no experimentación -
estructurados Sandbox
Almacenamiento
Data discovery
20
ANÁLISIS DE DATOS
21
ANÁLISIS DE DATOS
• Dependiendo del tipo de análisis requerido, esta etapa puede ser tan
simple como consultar un conjunto de datos para conformar una
agregación que ayude a una simple comparación.
Confirmatorio Exploratorio
23
ANÁLISIS DE DATOS
• El análisis de datos Confirmatorio es un enfoque deductivo en el que se propone previamente la causa del
fenómeno investigado.
• Los datos se analizan para probar o refutar la hipótesis y proporcionar respuestas definitivas a preguntas
específicas.
• Los hallazgos inesperados o anomalías generalmente se ignoran ya que se asumió una causa predeterminada.
24
ANÁLISIS DE DATOS
• El análisis exploratorio de datos es un enfoque inductivo que está estrechamente
asociado a la minería de datos.
• En su lugar, los datos se exploran a través del análisis para desarrollar una comprensión de
la causa del fenómeno.
• Los usuarios del negocio deben ser capaces de comprender los resultados con el fin de
obtener valor del análisis y posteriormente tener la capacidad de proporcionar
retroalimentación con la etapa de Análisis de Datos
26
VISUALIZACIÓN DE DATOS
28
UTILIZACIÓN DE LOS RESULTADOS
• La etapa de Utilización de Resultados del Análisis tiene por objetivo determinar cómo y
dónde se pueden aprovechar aún más los datos del análisis.
• Un uso de los resultados del Análisis puede ser la elaboración de modelos que
encapsulen nuevas percepciones y entendimientos sobre la naturaleza de los patrones y
relaciones que existen dentro de los datos que se analizaron. Un modelo puede ser una
ecuación matemática, un conjunto de reglas o prototipos de simulación
• Los modelos se pueden utilizar para optimizar los procesos de negocios, nueva
funcionalidad para aplicaciones de software o la adquisición de nueva tecnología.
29
MÉTODOS DE ANÁLISIS DE DATOS
• Los métodos para Análisis de datos:
• Análisis estadístico
• Análisis visual
• Máquinas de aprendizaje
• Análisis Semántico
• Análisis de mapeo de tópicos
30
MÉTODOS DE ANÁLISIS
• Los métodos
Análisis de análisisAnálisis
estadístico se pueden agrupar de Máquinas
Visual la siguientedemanera:Análisis semántico
Aprendizaje
• A/B Testing • Heat Maps • Clasificación • Procesamiento de
lenguaje natural
• Correlación • Análisis de series • Clustering
de tiempo • Analytics de texto
• Regresión • Outlier Detection
• Análisis de redes • Análisis de
• Filtering “sentimiento”
• Análisis espacial
de datos
31
ANÁLISIS ESTADÍSTICO
• Este tipo de análisis utiliza métodos estadísticos como medio para analizar datos.
• Este tipo de análisis se utiliza comúnmente para describir los conjuntos de datos a
través de una síntesis, tales como proporcionar la media, la mediana u otro
concepto estadístico que permita sacar conclusiones del universo de datos.
• También se puede utilizar para inferir patrones y relaciones dentro del conjunto de
datos, tales como regresión y correlación.
32
A/B TESTING
• El elemento puede ser una gama de cosas. Por ejemplo, puede ser un contenido (como
una página Web) o una oferta para un producto o servicio (como ofertas de artículos
electrónicos).
• La versión actual del elemento se denomina versión de control, mientras que la versión
modificada se denomina tratamiento.
• Aunque A/B Testing se puede implementar en casi cualquier dominio, se utiliza con
más frecuencia en marketing.
• En otras áreas, como los dominios científicos, el objetivo puede ser simplemente
observar qué versión funciona mejor para mejorar un proceso o producto
34
A/B TESTING
• El contenido de este correo hará que más clientes actualicen sus datos
personales?
• Con esta nueva promoción de costos del peaje podremos reducir el tráfico en
horas pico?
• Otros ejemplos…?
35
CORRELACIÓN
37
CORRELACIÓN
• Algunas preguntas que pueden responderse con este tipo de método:
• Otros ejemplos…?
38
ANÁLISIS DE REGRESIÓN
• La técnica de análisis de Regresión explora cómo una variable dependiente está
relacionada con una variable independiente dentro de un conjunto de datos.
39
ANÁLISIS DE REGRESIÓN
• Sin embargo, en estos casos sólo una variable independiente puede cambiar. Las
otras se mantienen constantes.
• También puede usarse para hacer predicciones sobre los valores de la variable
dependiente mientras aún es desconocida.
40
ANÁLISIS DE REGRESIÓN
Simple Múltiple
41
ANÁLISIS DE REGRESIÓN
• Cuáles son las chances de que los días de lluvia intensa, (+de 50mm), se
incremente el flujo de tráfico particular?
• Otros ejemplos…?
42
REGRESIÓN VS. CORRELACIÓN
43
REGRESIÓN VS. CORRELACIÓN
• Dentro de Big Data, la correlación se puede aplicar primero para descubrir si existe
una relación.
44
ANÁLISIS VISUAL
45
ANÁLISIS VISUAL
46
HEAT MAPS
• Los mapas de calor son una técnica eficaz de análisis visual para expresar
patrones, composiciones de datos a través la relación Part-whole y/o
distribuciones geográficas de datos.
• Por ejemplo:
• Para visualizar la distribución de ciertas enfermedades por regiones.
• Distribución de ventas por regiones: Verde indica regiones de ventas dentro de lo planificado, rojo indica
zonas de ventas deprimidas
47
HEAT MAPS
• Por ejemplo, un mapa de calor puede asignar los valores de 0 -3 al color rojo,
4 - 6 al ámbar y 7 - 10 al verde.
48
HEAT MAPS
49
HEAT MAPS – ALGUNAS HERRAMIENTAS
50
ANÁLISIS DE SERIES DE TIEMPO
• Este tipo de análisis permite analizar las variaciones de un conjunto de datos en intervalos
determinados de tiempo
• El análisis de series de tiempo nos ayuda a descubrir patrones dentro de datos que son
dependientes del tiempo. Una vez identificado, el patrón se puede extrapolar para
predicciones futuras.
• Por ejemplo, para identificar los patrones de ventas estacionales, las cifras mensuales de
ventas se representan como una serie temporal que ayuda a pronosticar las cifras de
ventas para la próxima temporada.
51
ANÁLISIS DE SERIES DE TIEMPO
• A diferencia de otros tipos de análisis, este tipo siempre incluye el tiempo como
una variable de comparación.
52
ANÁLISIS DE SERIES DE TIEMPO
Este gráfico de líneas representa una serie de tiempo de ventas de 1990 a 1996
Tomado Big Data Fundamentals, Tomas Erl
53
ANÁLISIS DE SERIES DE TIEMPO
• La línea azul muestra una tendencia al alza, lo que indica un aumento en las
ventas
54
ANÁLISIS DE SERIES DE TIEMPO
55
ANÁLISIS DE SERIES DE TIEMPO – ALGUNAS HERRAMIENTAS
56
MAQUINAS DE APRENDIZAJE, (MACHINE LEARNING)
• Los humanos son buenos en detectar patrones y relaciones dentro de los datos.
Pero, por otro lado, no podemos procesar grandes cantidades de datos en
tiempos muy cortos.
• Las máquinas, por otro lado, son muy hábiles en procesar grandes cantidades de
datos en tiempos muy cortos, pero sólo si saben cómo hacerlo.
Máquinas de
Aprendizaje
58
MAQUINAS DE APRENDIZAJE, (MACHINE LEARNING)
• Esto fue seguido por un aprendizaje no supervisado, donde la máquina está hecha para aprender por sí
sola sin ninguna supervisión
• Los científicos descubrieron además que puede ser una buena idea “recompensar” a la máquina cuando
hace el trabajo de la manera esperada y llegó el aprendizaje reforzado
• La información disponible en estos días se ha vuelto tan enorme que las técnicas convencionales
desarrolladas hasta el momento no ha podido dar respuesta a todos los problemas que se plantearon
frente al crecimiento de Big Data.
• Así, llegó el aprendizaje profundo donde el cerebro humano es simulado con las Redes Neuronales (ANN).
Esto implica una gran exigencia a las arquitecturas actuales de computadoras.
59
MAQUINAS DE APRENDIZAJE, (MACHINE LEARNING)
• Con Deep Learning estamos resolviendo muchos de los problemas que antes fueron
demasiado complejos o imposible de resolver.
• La técnica ahora está más avanzada al dar incentivos al Deep Learning a partir de hacer
aprendizaje reforzado s y estamos, por ahora, en el nivel más avanzado de máquinas de
aprendizaje.
60
MAQUINAS DE APRENDIZAJE, DEFINICIONES
Tipo de Máquina de Definición/Descripción
aprendizaje
En el aprendizaje supervisado, los algoritmos trabajan con datos “etiquetados” intentado encontrar una
Aprendizaje función que, dadas las variables de entrada (input data), les asigne la etiqueta de salida adecuada. El
supervisado algoritmo se entrena con un “histórico” de datos y así “aprende” a asignar la etiqueta de salida adecuada a
un nuevo valor, es decir, predice el valor de salida
Este tipo aprendizaje se basa en mejorar la respuesta del modelo usando un proceso de retroalimentación. El
algoritmo aprende observando el mundo que le rodea. Su información de entrada es el feedback o
retroalimentación que obtiene del mundo exterior como respuesta a sus acciones. Por lo tanto, el sistema
aprende a base de ensayo-error.
61
MAQUINAS DE APRENDIZAJE, DEFINICIONES
62
Feature Desarrollo del
Engineering modelo y test
Monitorear Fabricar
- Mediciones del modelo - Datos: Acceso y estructura
- Mediciones de performance Métricas - Feature Engineering
del sistema del
Negocio Fabricar Auditoria - Desarrollo del modelo
- Re entrenamiento del modelo y ROI y CM - Testing
- Evaluación del ROI
63
El contexto del desarrollo de sistemas integrando ML
Especificar
Desarrollar y
necesidades Integrar
testear
y diseñar RELEASE PIPELINE
Equipo de
desarrollo
Repositorio Paquetizar Certificar el Liberar
Centralizado el modelo modelo aplicación
Análisis de datos y
DATA PIPELINE monitoreo de
desvíos
ALGUNAS REFERENCIAS
• https://azure.microsoft.com/en-us/services/machine-
learning/mlops/
• https://docs.microsoft.com/en-us/azure/machine-
learning/concept-model-management-and-deployment
• https://azure.microsoft.com/es-es/services/devops/
• https://ibm-cloud-architecture.github.io/refarch-data-ai-
analytics/
• www.infoq.com
CONSULTAS