Modulo 5 - Ciclo de Vida de Big Data - 2020

Conceptos de Analítica de Datos y Big Data
Modulo 5: Ciclo de vida de Big Data
Prof. Alejandro Bianchi

ATAM Evaluator Certificate
Software Architecture Professional Certificate
Software Engineering Institute, CMU University
1
AGENDA DE LA JORNADA
• Preguntas y/o comentarios sobre mecanismos y tecnologías
• Más sobre el ciclo de vida de Análisis de Big Data

Elaboración y evaluación del caso de negocio
Identificación de las fuentes de datos
Adquisición y filtrado de datos
Extracción de datos
Validación y limpieza de datos
Agregación de datos y limpieza
Análisis de datos
Visualización de Datos
Utilización de los resultados
• Métodos para Análisis de Datos – Parte 1
• Síntesis y preguntas.
2
LOS ROLES INVOLUCRADOS EN EL CICLO DE VIDA DE BIG DATA
Científico
Arquitecto de de datos
Extraer los
datos datos
y Operaciones e
BI infraestructura
Testea y monitorea
Conocimiento de
dominio
Ingeniero en
Conecta y Big Data
Captura Escala
Despliega
Monitorea
Integra
Requerimientos
CI/CD
Stakeholder del
Negocio, (areas y corporativo) Arquitectura y DevOps
desarrollo
3
ELABORACIÓN Y EVALUACIÓN DEL CASO DE NEGOCIO
• Cada proyecto de Análisis de Big Data debe comenzar con la definición de un caso de
negocios que incluya:
• Alcance
• Una justificación bien fundamentada
• Objetivos de negocios
• Presupuestos y otros recursos
• Resultados esperados y como evaluarlos
• El caso de negocios debe estar bien documentado para que pueda ser formalmente
evaluado antes de proceder con el proyecto
• Esta evaluación ayuda a entender los recursos que serán necesarios y cuáles serán los
riesgos y desafíos a los que habrá que enfrentarse.
4
5
• Identificar con claridad los objetivos de negocios y los resultados esperados
facilita la identificación de KPIs para medir el éxito del proyecto.
• Disponer de los requerimientos bien documentados puede ayudar a

determinar si Big Data es una solución para los problemas/desafíos que se
busca resolver
• Es importante relacionar los objetivos a las 5Vs que caracterizar a Big Data
• La estimación de los presupuestos, (Capital Humano, tecnología,

entrenamiento, apoyo externo), debe hacerse en un contexto de objetivos y
riesgos bien identificados.
6
IDENTIFICACIÓN DE LAS FUENTES DE DATOS
• Esta etapa del ciclo de vida tiene por objetivo identificar los
conjuntos de datos, (y sus fuentes), requeridos para el proyecto de
análisis en cuestión
• Ampliar la variedad de fuentes de datos puede incrementar la

probabilidad de encontrar patrones ocultos y correlaciones
• Cuando no tenemos muy claro que es lo que estamos buscando,

ampliar las fuentes de datos puede ayudar a clarificar las ideas
• Dependiendo de los objetivos del proyecto las fuentes pueden ser

internas o externas
7
ADQUISICIÓN Y FILTRADO DE DATOS
• Durante esta etapa los datos son obtenidos/adquiridos de todas las fuentes de datos
identificadas y sometidas a un proceso de filtrado para eliminar datos inconsistentes o que
no tienen valor para el proyecto de análisis.
• Dependiendo del tipo de dato, pueden provenir de un conjunto paquetizado de

archivos, (compra de datos a terceras partes) o puede ser un proceso de integración a
través de una API, (ejemplo Twitter)
• En el caso de fuentes externas es posible que se deban descartar grandes volúmenes de

datos por ser irrelevantes
• Los datos filtrados deberían poder ser resguardados para otro posibles proyectos de
análisis.
8
ADQUISICIÓN Y FILTRADO DE DATOS - 2
• Una vez que los datos, (internos y externos) han sido filtrados, los mismos deben ser persistidos.
• La metadata de las fuentes de datos puede ser incorporada mediante un proceso de

automatización de manera de facilitar la clasificación y las consultas
• La metadata debe mantenerse actualizada y disponible a lo largo de toda la vida útil de las
fuentes de datos
9
ADQUISICIÓN Y FILTRADO DE DATOS - 3
• Varias herramientas del mercado,
(propietarias y libres), proveen soporte
automatizado para gestionar metadata
Tomado Big Data Fundamentals, Tomas Erl
10
EXTRACCIÓN DE DATOS
• Los datos identificados como entradas para el proyecto de análisis pueden tener un
formato incompatible con la solución de Big Data que se está diseñando
• Esta incompatibilidad puede ser mucho más frecuente cuando las fuentes son externas
• La etapa de extracción de datos tiene por objetivo tomar los datos de las diferentes
fuentes y transformarlos, cuando sea necesario, en un formato que sea compatible con
nuestra solución de Big Data.
• La complejidad de este proceso esta determinada por la capacidad del diseño para
procesar diferentes tipos de datos y la complejidad del problema a resolver
11
EXTRACCIÓN DE DATOS - EJEMPLOS
Ejemplo1
Ejemplo 2
Tomado Big Data Fundamentals, Tomas Erl 12

VALIDACIÓN Y LIMPIEZA DE DATOS
• En sistemas tradicionales la validación de los datos esta embebida dentro

de las funciones del sistema
• En Big Data, los datos pueden ser no estructurados y sin validaciones

previas o demasiado “livianas”. En muchos casos resulta complejo
establecer reglas consistentes de validación
• Esta etapa del ciclo de vida, busca establecer reglas de validación y

remover datos inválidos
• La potencial redundancia de datos entre múltiples datasets, puede ser

usada para explorar conexiones entre estos y así ensamblar parámetros de
validación y detección de datos faltantes
13
=
OK
1 aaa 111 11a No OK

1 aaa 111 11a
2 bbb 121 12a 2 bbb 121 33v
3 ccc 122 14d 3 ccc 122
4 ddd 321 21a 4 ddd 321
Dataset A Dataset B
14
• Para procesamiento batch, esta etapa puede ser implantada a través de un operación
de ETL
• Para procesamiento en tiempo real, se requiere un desarrollo más complejo que debe
ser ejecutado en memoria
• La procedencia de las fuentes puede ser una variable importante al momento de

determinar la calidad de datos que pueden estar bajo cuestionamiento
• Tener presente que datos que pueden ser inválidos podrían tener valor, dado que
pueden estar ocultando patrones o tendencias. La anormalidad de un dato puede estar
indicando un cambio, en por ejemplo, los hábitos de un conjunto de clientes.
15
AGREGACIÓN Y REPRESENTACIÓN
• Los datos pueden extenderse a través de múltiples datasets, lo que requiere

que estos se unan mediante campos comunes (por ejemplo, fecha o ID). En
otros casos, los mismos campos de datos pueden aparecer en múltiples
datasets, (por ejemplo, fecha de nacimiento).
• De cualquier manera, se requiere un método de conciliación de datos o se debe

determinar el dataset que representa el valor correcto.
• La etapa de agregación y representación de datos se dedica a integrar múltiples

conjuntos de datos para llegar a una vista unificada.
16
Realizar esta etapa puede complicarse debido a las diferencias en:
• Estructura de datos: Aunque el formato de datos puede ser el mismo, el modelo de

datos puede ser diferente.
• Semántica: Un valor que se etiqueta de forma diferente en dos datasets diferentes

puede significar lo mismo.
Conciliar estas diferencias puede requerir una lógica compleja que se debería ejecuta
automáticamente sin necesidad de intervención humana. Los grandes volúmenes
procesados por las soluciones de Big Data pueden hacer que la agregación de datos sea
una operación que requiera mucho tiempo y esfuerzo.
17
• Los potenciales futuros requerimientos de análisis de datos se deben considerar durante esta
etapa para ayudar a fomentar el reuso de activos de datos
• Es importante entender que los mismos datos pueden ser almacenados en muchas formas
diferentes. Una forma puede ser más adecuada para un tipo particular de análisis que otra.
• Por ejemplo, los datos almacenados como BLOB, (Binary Large Object), serían de poca utilidad si el
análisis requiere acceso a campos de datos individuales.
• Una estructura de datos estandarizada por la solución Big Data puede actuar como un
denominador común que puede utilizarse para una serie de técnicas y proyectos de análisis. Esto
puede requerir el establecimiento de un repositorio central de análisis estándar, como una base de
datos NoSQL.
18
ID NyAP Prod Opin

ID NyAP ID Produ ID Opin
Dataset A Dataset B Dataset C Dataset D
19
UN VISTA FUNCIONAL CON ENFOQUE EN DATA LAKE
Gobierno de datos y Seguridad
Framework de Ingestión de datos – batch – real time - streaming

EDW ODS
Dashboards
Datos
estructurados Gestión de Motor de Gestión de Datos
ESB
Metadata reglas Maestros
DATA LAKE
Area de datos Reportes
confiables – única operacionales
Area versión de la verdad
Area de
transiente
Datos
de carga
crudos Area de datos
refinados
Auto servicio
Area de
Datos Semi y no experimentación -
estructurados Sandbox
Almacenamiento
Data discovery
20
ANÁLISIS DE DATOS
• La etapa de análisis de datos tiene por objetivo realizar la tarea de

análisis real, que normalmente implica uno o más tipos de Analytics.
• Esta etapa puede ser de naturaleza iterativa, especialmente si el

análisis de los datos es exploratorio, de modo que el proceso se repita
hasta que se descubra el patrón o correlación apropiados.
• (El enfoque del análisis exploratorio se explica en breve, junto con el

análisis confirmatorio.)
21
ANÁLISIS DE DATOS
• Dependiendo del tipo de análisis requerido, esta etapa puede ser tan
simple como consultar un conjunto de datos para conformar una
agregación que ayude a una simple comparación.
• Pero puede ser tan complejo como combinar la minería de datos y

técnicas complejas de análisis estadístico para descubrir patrones y
anomalías, o para generar un modelo estadístico o matemático para
describir las relaciones entre variables.
• El enfoque adoptado al realizar esta etapa puede clasificarse como

análisis confirmatorio o análisis exploratorio (este último está
vinculado a la minería de datos).
22
ANÁLISIS DE DATOS
Análisis de Datos
Data Mining
Confirmatorio Exploratorio
Ejemplos de uno y otro…..?
23
ANÁLISIS DE DATOS
• El análisis de datos Confirmatorio es un enfoque deductivo en el que se propone previamente la causa del
fenómeno investigado.
• La causa o suposición propuesta genera una hipótesis.
• Los datos se analizan para probar o refutar la hipótesis y proporcionar respuestas definitivas a preguntas
específicas.
• Normalmente se utilizan muestras de datos.
• Los hallazgos inesperados o anomalías generalmente se ignoran ya que se asumió una causa predeterminada.
24
ANÁLISIS DE DATOS
• El análisis exploratorio de datos es un enfoque inductivo que está estrechamente
asociado a la minería de datos.
• No se generan hipótesis ni suposiciones predeterminadas.
• En su lugar, los datos se exploran a través del análisis para desarrollar una comprensión de
la causa del fenómeno.
• Aunque no proporciona respuestas definitivas, este método proporciona una dirección

general que puede facilitar el descubrimiento de patrones o anomalías.
• Se usan grandes cantidades de datos y análisis visuales.

25
VISUALIZACIÓN DE DATOS
• La capacidad de analizar cantidades masivas de datos y encontrar información útil tiene

poco valor si los únicos que pueden interpretar los resultados son los analistas.
• La etapa de visualización de datos tiene por objetivo aplicar técnicas y herramientas de

visualización para comunicar gráficamente los resultados del análisis de manera que
puedan ser interpretados, de manera eficiente y eficaz, por parte de los usuarios del
negocio
• Los usuarios del negocio deben ser capaces de comprender los resultados con el fin de
obtener valor del análisis y posteriormente tener la capacidad de proporcionar
retroalimentación con la etapa de Análisis de Datos
26
VISUALIZACIÓN DE DATOS
28
UTILIZACIÓN DE LOS RESULTADOS
• La etapa de Utilización de Resultados del Análisis tiene por objetivo determinar cómo y
dónde se pueden aprovechar aún más los datos del análisis.
• Un uso de los resultados del Análisis puede ser la elaboración de modelos que
encapsulen nuevas percepciones y entendimientos sobre la naturaleza de los patrones y
relaciones que existen dentro de los datos que se analizaron. Un modelo puede ser una
ecuación matemática, un conjunto de reglas o prototipos de simulación
• Los modelos se pueden utilizar para optimizar los procesos de negocios, nueva
funcionalidad para aplicaciones de software o la adquisición de nueva tecnología.
29
MÉTODOS DE ANÁLISIS DE DATOS
• Los métodos para Análisis de datos:
• Análisis estadístico
• Análisis visual
• Máquinas de aprendizaje
• Análisis Semántico
• Análisis de mapeo de tópicos
30
MÉTODOS DE ANÁLISIS
• Los métodos
Análisis de análisisAnálisis
estadístico se pueden agrupar de Máquinas
Visual la siguientedemanera:Análisis semántico
Aprendizaje
• A/B Testing • Heat Maps • Clasificación • Procesamiento de
lenguaje natural
• Correlación • Análisis de series • Clustering
de tiempo • Analytics de texto
• Regresión • Outlier Detection
• Análisis de redes • Análisis de
• Filtering “sentimiento”
• Análisis espacial
de datos
31
ANÁLISIS ESTADÍSTICO
• Este tipo de análisis utiliza métodos estadísticos como medio para analizar datos.
• Este tipo de análisis se utiliza comúnmente para describir los conjuntos de datos a
través de una síntesis, tales como proporcionar la media, la mediana u otro
concepto estadístico que permita sacar conclusiones del universo de datos.
• También se puede utilizar para inferir patrones y relaciones dentro del conjunto de
datos, tales como regresión y correlación.
• Vamos a describir los siguientes tipos de análisis estadístico:

• A / B testing
• Correlación
• Regresión
32
A/B TESTING
• A/B Testing, también conocidas como pruebas de división o de compartimiento,

comparan dos versiones de un elemento para determinar qué versión es superior en
función de una métrica predefinida.
• El elemento puede ser una gama de cosas. Por ejemplo, puede ser un contenido (como
una página Web) o una oferta para un producto o servicio (como ofertas de artículos
electrónicos).
• La versión actual del elemento se denomina versión de control, mientras que la versión
modificada se denomina tratamiento.
• Ambas versiones se someten a un experimento simultáneamente. Las observaciones se

registran para determinar qué versión tiene más éxito.
33
A/B TESTING
• Aunque A/B Testing se puede implementar en casi cualquier dominio, se utiliza con
más frecuencia en marketing.
• Generalmente, el objetivo es medir el comportamiento humano con el objetivo de

aumentar las ventas o inducir al uso de un dado servicio, (pago por débito automático)
• En otras áreas, como los dominios científicos, el objetivo puede ser simplemente
observar qué versión funciona mejor para mejorar un proceso o producto
• Google, por ejemplo, ofrece facilidades para este

tipo de análisis
34
A/B TESTING
• Algunas preguntas que pueden responderse con este tipo de método:
• Es la nueva versión de esta droga mejor que la anterior?
• Tendrá la nueva página de home banking mayor aceptación que la vigente?
• El contenido de este correo hará que más clientes actualicen sus datos
personales?
• Con esta nueva promoción de costos del peaje podremos reducir el tráfico en
horas pico?
• Otros ejemplos…?
35
CORRELACIÓN
• El análisis de correlación es una técnica utilizada para determinar si dos variables

están relacionadas entre sí.
• Si se descubre que están relacionadas, el siguiente paso es determinar cuál es esa

relación.
• Un ejemplo de una relación entre dos variables: El valor de la variable A aumenta

cada vez que aumenta el valor de la variable B.
• Podemos estar más interesados en descubrir cuan estrechamente están

relacionadas las variables A y B, lo que significa que también queremos analizar
hasta qué punto la Variable B aumenta en relación con el aumento de la Variable A.
36
CORRELACIÓN
• El uso de la correlación ayuda a desarrollar un entendimiento de un conjunto dado
de datos y encontrar relaciones que pueden ayudar a explicar un dado fenómeno.
• La correlación se utiliza comúnmente para la minería de datos en donde la

identificación de relaciones entre variables en un conjunto de datos ayuda al
descubrimiento de patrones y anomalías.
• Este tipo de análisis ayuda a identificar la naturaleza del conjunto de datos o la

causa de un fenómeno
37
CORRELACIÓN
• La distancia entre una ciudad y el mar impacta en la temperatura media?
• Todos los alumnos de excelente puntaje en la secundaría, tienen el mismo

rendimiento en la Universidad?
• Tiene el costo del boleto un impacto en la frecuencia de viajes de los usuarios?
• Qué influencia tienen los fines de semana largos en la productividad de los

ingenieros?
38
ANÁLISIS DE REGRESIÓN
• La técnica de análisis de Regresión explora cómo una variable dependiente está
relacionada con una variable independiente dentro de un conjunto de datos.
• Como ejemplo de escenario, la regresión podría ayudar a determinar el tipo de relación

que existe entre la temperatura (variable independiente) y el rendimiento del cultivo
(variable dependiente).
• La aplicación de esta técnica ayuda a determinar cómo cambia el valor de la variable

dependiente en relación con los cambios en el valor de la variable independiente.
• Cuando la variable independiente aumenta, por ejemplo, ¿aumenta la variable

dependiente? En caso afirmativo, ¿es el aumento una proporción lineal o no lineal?
39
• Puedo tener más de una variable independiente al mismo tiempo.
• Sin embargo, en estos casos sólo una variable independiente puede cambiar. Las
otras se mantienen constantes.
• La regresión puede ayudar a comprender mejor un dado fenómeno y por qué

ocurrió.
• También puede usarse para hacer predicciones sobre los valores de la variable
dependiente mientras aún es desconocida.
40
1 variable explicativa Modelos de regresión 2+ variables explicativas
Simple Múltiple
Lineal No lineal Lineal No lineal
41
• Cuáles son las chances de que los días de lluvia intensa, (+de 50mm), se
incremente el flujo de tráfico particular?
• Si incrementamos las horas de publicidad en un 45% que chance tendremos de

aumentar las ventas?
• Aumentar un 5% el peaje en horas pico ayudaría a reducir el flujo de tránsito que

ingresa en la ciudad?
42
REGRESIÓN VS. CORRELACIÓN
• La regresión y la correlación tienen algunas diferencias importantes.
• La correlación no implica una causalidad. El cambio en el valor de una variable

puede no ser responsable del cambio en el valor de la segunda variable, aunque
ambas pueden cambiar a la misma tasa.
• La correlación asume que ambas variables son independientes.
• La regresión, por otro lado, trata con variables dependientes e independientes

que ya han sido identificadas.
43
REGRESIÓN VS. CORRELACIÓN
• La regresión implica que existe un grado de causalidad entre las variables

dependientes e independientes que puede ser directa o indirecta.
• Dentro de Big Data, la correlación se puede aplicar primero para descubrir si existe
una relación.
• La regresión se puede aplicar para explorar la relación y predecir los valores de la

variable dependiente, basándose en los valores conocidos de la variable
independiente.
44
ANÁLISIS VISUAL
• El análisis visual es una forma de análisis de datos que implica la representación

gráfica de datos para permitir o mejorar su percepción visual.
• Basado en la premisa de que los humanos pueden entender y sacar conclusiones

de los gráficos más rápidamente que a partir del texto, el análisis visual actúa como
una herramienta de descubrimiento en el campo de Big Data.
• El objetivo es utilizar representaciones gráficas para desarrollar una comprensión

más profunda de los datos que se analizan.
• Específicamente, ayuda a identificar y resaltar patrones ocultos, correlaciones y

anomalías.
45
ANÁLISIS VISUAL
• El análisis visual también está directamente relacionado con el análisis exploratorio

de datos, ya que estimula la formulación de preguntas desde diferentes ángulos.
• Esta apartado describe los siguientes tipos de análisis visual:

• Heat Maps
• Análisis de series temporales
46
HEAT MAPS
• Los mapas de calor son una técnica eficaz de análisis visual para expresar
patrones, composiciones de datos a través la relación Part-whole y/o
distribuciones geográficas de datos.
• También facilitan la identificación de áreas de interés y el descubrimiento de

valores extremos (altos / bajos) dentro de un conjunto de datos.
• Por ejemplo:
• Para visualizar la distribución de ciertas enfermedades por regiones.
• Distribución de ventas por regiones: Verde indica regiones de ventas dentro de lo planificado, rojo indica
zonas de ventas deprimidas
47
HEAT MAPS
• El mapa de calor es una representación visual, que codifica valores

numéricos en base a colores.
• A cada valor o rango de valores se le asigna un color según su tipo, o el rango

en el cual cae.
• Por ejemplo, un mapa de calor puede asignar los valores de 0 -3 al color rojo,
4 - 6 al ámbar y 7 - 10 al verde.
• Un mapa de calor puede tener la forma de un gráfico de áreas o un mapa

específico, como se muestra en las siguientes ejemplos.
48
HEAT MAPS
49
HEAT MAPS – ALGUNAS HERRAMIENTAS
50
ANÁLISIS DE SERIES DE TIEMPO
• Este tipo de análisis permite analizar las variaciones de un conjunto de datos en intervalos
determinados de tiempo
• Una serie temporal es una colección ordenada de datos registrados en intervalos de

tiempo regulares. Un ejemplo es la serie de tiempo que representa las cifras de ventas al
final de cada mes.
• El análisis de series de tiempo nos ayuda a descubrir patrones dentro de datos que son
dependientes del tiempo. Una vez identificado, el patrón se puede extrapolar para
predicciones futuras.
• Por ejemplo, para identificar los patrones de ventas estacionales, las cifras mensuales de
ventas se representan como una serie temporal que ayuda a pronosticar las cifras de
ventas para la próxima temporada.
51
• Los análisis de series temporales se usan, generalmente, para pronosticar mediante

la identificación de tendencias a largo plazo, patrones periódicos estacionales y
variaciones irregulares a corto plazo en el conjunto de datos.
• A diferencia de otros tipos de análisis, este tipo siempre incluye el tiempo como
una variable de comparación.
• Una serie temporal se expresa generalmente con un gráfico de líneas, con el

tiempo trazado en el eje x y el valor de datos registrados trazados en el eje y.
52
Este gráfico de líneas representa una serie de tiempo de ventas de 1990 a 1996
Tomado Big Data Fundamentals, Tomas Erl
53
• La serie temporal presentada en el gráfico de líneas abarca siete años.
• Los picos uniformemente espaciados hacia el final de cada año muestran

patrones periódicos estacionales (ventas de Navidad).
• Los círculos rojos punteados representan variaciones irregulares a corto

plazo.
• La línea azul muestra una tendencia al alza, lo que indica un aumento en las
ventas
54
• Ejemplos de preguntas que podemos responder con este tipo de análisis:
• ¿Cuánto rendimiento debe esperar el agricultor basado en datos históricos

de otras campañas?
• ¿Cuál es el aumento esperado de la población en los próximos 5 años?
• ¿La disminución actual de las ventas es un hecho único o se produce

regularmente ?
55
ANÁLISIS DE SERIES DE TIEMPO – ALGUNAS HERRAMIENTAS
56
MAQUINAS DE APRENDIZAJE, (MACHINE LEARNING)
• Los humanos son buenos en detectar patrones y relaciones dentro de los datos.
Pero, por otro lado, no podemos procesar grandes cantidades de datos en
tiempos muy cortos.
• Las máquinas, por otro lado, son muy hábiles en procesar grandes cantidades de
datos en tiempos muy cortos, pero sólo si saben cómo hacerlo.
• Si el conocimiento humano puede combinarse con la velocidad de

procesamiento de las máquinas, estas podrán procesar grandes cantidades de
datos sin requerir mucha intervención humana.
• Este es el concepto básico de las máquinas de aprendizaje.

57
MAQUINAS DE APRENDIZAJE, (TIPOS DE MÁQUINAS)
Máquinas de
Aprendizaje
Aprendizaje Aprendizaje Aprendizaje

Aprendizaje Aprendizaje
no Profundo
supervisado reforzado profundo
supervisado reforzado
58
• El aprendizaje automático evolucionó de izquierda a derecha como se muestra en el diagrama anterior.
• Inicialmente, los investigadores comenzaron con el aprendizaje supervisado.
• Esto fue seguido por un aprendizaje no supervisado, donde la máquina está hecha para aprender por sí
sola sin ninguna supervisión
• Los científicos descubrieron además que puede ser una buena idea “recompensar” a la máquina cuando
hace el trabajo de la manera esperada y llegó el aprendizaje reforzado
• La información disponible en estos días se ha vuelto tan enorme que las técnicas convencionales
desarrolladas hasta el momento no ha podido dar respuesta a todos los problemas que se plantearon
frente al crecimiento de Big Data.
• Así, llegó el aprendizaje profundo donde el cerebro humano es simulado con las Redes Neuronales (ANN).
Esto implica una gran exigencia a las arquitecturas actuales de computadoras.
59
• Con Deep Learning estamos resolviendo muchos de los problemas que antes fueron
demasiado complejos o imposible de resolver.
• La técnica ahora está más avanzada al dar incentivos al Deep Learning a partir de hacer
aprendizaje reforzado s y estamos, por ahora, en el nivel más avanzado de máquinas de
aprendizaje.
60
MAQUINAS DE APRENDIZAJE, DEFINICIONES
Tipo de Máquina de Definición/Descripción
aprendizaje
En el aprendizaje supervisado, los algoritmos trabajan con datos “etiquetados” intentado encontrar una
Aprendizaje función que, dadas las variables de entrada (input data), les asigne la etiqueta de salida adecuada. El
supervisado algoritmo se entrena con un “histórico” de datos y así “aprende” a asignar la etiqueta de salida adecuada a
un nuevo valor, es decir, predice el valor de salida
El aprendizaje no supervisado tiene lugar cuando no se dispone de datos “etiquetados” para el

Aprendizaje no entrenamiento. Sólo conocemos los datos de entrada, pero no existen datos de salida que correspondan a un
supervisado determinado input. Por tanto, sólo podemos describir la estructura de los datos, para intentar encontrar
algún tipo de organización que simplifique el análisis. Por ello, tienen un carácter exploratorio
No todos los algoritmos ML se pueden clasificar como algoritmos de aprendizaje supervisado o no

Aprendizaje reforzado supervisado. Hay una “tierra de nadie” que es donde encajan las técnicas de aprendizaje por refuerzo.
Este tipo aprendizaje se basa en mejorar la respuesta del modelo usando un proceso de retroalimentación. El
algoritmo aprende observando el mundo que le rodea. Su información de entrada es el feedback o
retroalimentación que obtiene del mundo exterior como respuesta a sus acciones. Por lo tanto, el sistema
aprende a base de ensayo-error.
61
MAQUINAS DE APRENDIZAJE, DEFINICIONES
Tipo de Máquina de Definición/Descripción

aprendizaje
El aprendizaje profundo es un tema que cada vez adquiere mayor relevancia en el campo de la
Aprendizaje profundo inteligencia artificial (IA). Siendo una subcategoría del aprendizaje automático, el aprendizaje
profundo trata del uso de redes neuronales para mejorar cosas tales como el reconocimiento de
voz, la visión por ordenador y el procesamiento del lenguaje natural.
Aplica técnicas de aprendizaje reforzado a las redes neuronales.

Aprendizaje profundo
reforzado
62
Feature Desarrollo del
Engineering modelo y test
Monitorear Fabricar
- Mediciones del modelo - Datos: Acceso y estructura
- Mediciones de performance Métricas - Feature Engineering
del sistema del
Negocio Fabricar Auditoria - Desarrollo del modelo
- Re entrenamiento del modelo y ROI y CM - Testing
- Evaluación del ROI
Métricas Monitorear Gestionar

de
rendimient Reuso de
modelos
o
Gestionar
Desplegar e Integrar
- Nuevos roles
- Estrategia de entrega e Desplegar e
integrar
- Gestión de configuración
integración
- Trazabilidad
- Desarrollo de la aplicación de Desarrollo de Exportación
aplicación de del modelo y - Reuso de modelos desde un
negocios despliegue
negocios repositorio centralizado
63
El contexto del desarrollo de sistemas integrando ML
Recopilación de datos Testing y Gestión de

Debugging Recursos
Configuración Servicios de
Infraestructura,
Verificación de Código desarrollo e
datos de Análisis de Modelos Integración
Machine
Automatización
Learning
Gestión de Procesos
Feature Monitoreo
Engineering Gestión de Metadata
DEVOPS PIPELINE Vista de un ambiente integrado
Especificar
Desarrollar y
necesidades Integrar
testear
y diseñar RELEASE PIPELINE
Equipo de
desarrollo
Repositorio Paquetizar Certificar el Liberar
Centralizado el modelo modelo aplicación
Preparar los Entrenar y Registrar el

datos Evaluar Modelo Monitorear y
Ingenieros de analizar
feedback
ML y
Científicos de
datos REPOSITORIO
DE
DATOS
MODELLING PIPELINE
Análisis de datos y
DATA PIPELINE monitoreo de
desvíos
ALGUNAS REFERENCIAS
• https://azure.microsoft.com/en-us/services/machine-
learning/mlops/
• https://docs.microsoft.com/en-us/azure/machine-
learning/concept-model-management-and-deployment
• https://azure.microsoft.com/es-es/services/devops/
• https://ibm-cloud-architecture.github.io/refarch-data-ai-
analytics/
• www.infoq.com
CONSULTAS

Modulo 5 - Ciclo de Vida de Big Data - 2020

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Modulo 5 - Ciclo de Vida de Big Data - 2020

Cargado por

Copyright:

Formatos disponibles

Conceptos de Analítica de Datos y Big Data

Modulo 5: Ciclo de vida de Big Data

Prof. Alejandro Bianchi

• Preguntas y/o comentarios sobre mecanismos y tecnologías

• Más sobre el ciclo de vida de Análisis de Big Data

• Métodos para Análisis de Datos – Parte 1

• Disponer de los requerimientos bien documentados puede ayudar a

• La estimación de los presupuestos, (Capital Humano, tecnología,

• Ampliar la variedad de fuentes de datos puede incrementar la

• Cuando no tenemos muy claro que es lo que estamos buscando,

• Dependiendo de los objetivos del proyecto las fuentes pueden ser

• Dependiendo del tipo de dato, pueden provenir de un conjunto paquetizado de

• En el caso de fuentes externas es posible que se deban descartar grandes volúmenes de

• La metadata de las fuentes de datos puede ser incorporada mediante un proceso de

Tomado Big Data Fundamentals, Tomas Erl

Tomado Big Data Fundamentals, Tomas Erl 12

• En sistemas tradicionales la validación de los datos esta embebida dentro

• En Big Data, los datos pueden ser no estructurados y sin validaciones

• Esta etapa del ciclo de vida, busca establecer reglas de validación y

• La potencial redundancia de datos entre múltiples datasets, puede ser

1 aaa 111 11a No OK

• La procedencia de las fuentes puede ser una variable importante al momento de

• Los datos pueden extenderse a través de múltiples datasets, lo que requiere

• De cualquier manera, se requiere un método de conciliación de datos o se debe

• La etapa de agregación y representación de datos se dedica a integrar múltiples

Realizar esta etapa puede complicarse debido a las diferencias en:

• Estructura de datos: Aunque el formato de datos puede ser el mismo, el modelo de

• Semántica: Un valor que se etiqueta de forma diferente en dos datasets diferentes

ID NyAP Prod Opin

Dataset A Dataset B Dataset C Dataset D

Gobierno de datos y Seguridad

Framework de Ingestión de datos – batch – real time - streaming

• La etapa de análisis de datos tiene por objetivo realizar la tarea de

• Esta etapa puede ser de naturaleza iterativa, especialmente si el

• (El enfoque del análisis exploratorio se explica en breve, junto con el

• Pero puede ser tan complejo como combinar la minería de datos y

• El enfoque adoptado al realizar esta etapa puede clasificarse como

Ejemplos de uno y otro…..?

• La causa o suposición propuesta genera una hipótesis.

• Normalmente se utilizan muestras de datos.

• No se generan hipótesis ni suposiciones predeterminadas.

• Aunque no proporciona respuestas definitivas, este método proporciona una dirección

• Se usan grandes cantidades de datos y análisis visuales.

• La capacidad de analizar cantidades masivas de datos y encontrar información útil tiene

• La etapa de visualización de datos tiene por objetivo aplicar técnicas y herramientas de

• Vamos a describir los siguientes tipos de análisis estadístico:

• A/B Testing, también conocidas como pruebas de división o de compartimiento,

• Ambas versiones se someten a un experimento simultáneamente. Las observaciones se

• Generalmente, el objetivo es medir el comportamiento humano con el objetivo de

• Google, por ejemplo, ofrece facilidades para este

• Algunas preguntas que pueden responderse con este tipo de método:

• Es la nueva versión de esta droga mejor que la anterior?

• Tendrá la nueva página de home banking mayor aceptación que la vigente?

• El análisis de correlación es una técnica utilizada para determinar si dos variables

• Si se descubre que están relacionadas, el siguiente paso es determinar cuál es esa

• Un ejemplo de una relación entre dos variables: El valor de la variable A aumenta

• Podemos estar más interesados en descubrir cuan estrechamente están

• La correlación se utiliza comúnmente para la minería de datos en donde la

• Este tipo de análisis ayuda a identificar la naturaleza del conjunto de datos o la

• La distancia entre una ciudad y el mar impacta en la temperatura media?

• Todos los alumnos de excelente puntaje en la secundaría, tienen el mismo

• Tiene el costo del boleto un impacto en la frecuencia de viajes de los usuarios?

• Qué influencia tienen los fines de semana largos en la productividad de los