Está en la página 1de 66

Conceptos de Analítica de Datos y Big Data

Modulo 5: Ciclo de vida de Big Data

Prof. Alejandro Bianchi


ATAM Evaluator Certificate
Software Architecture Professional Certificate
Software Engineering Institute, CMU University

1
AGENDA DE LA JORNADA

• Preguntas y/o comentarios sobre mecanismos y tecnologías

• Más sobre el ciclo de vida de Análisis de Big Data


Elaboración y evaluación del caso de negocio
Identificación de las fuentes de datos
Adquisición y filtrado de datos
Extracción de datos
Validación y limpieza de datos
Agregación de datos y limpieza
Análisis de datos
Visualización de Datos
Utilización de los resultados

• Métodos para Análisis de Datos – Parte 1

• Síntesis y preguntas.
2
LOS ROLES INVOLUCRADOS EN EL CICLO DE VIDA DE BIG DATA
Científico
Arquitecto de de datos
Extraer los
datos datos
y Operaciones e
BI infraestructura
Testea y monitorea
Conocimiento de
dominio

Ingeniero en
Conecta y Big Data
Captura Escala

Despliega
Monitorea
Integra

Requerimientos

CI/CD
Stakeholder del
Negocio, (areas y corporativo) Arquitectura y DevOps
desarrollo
3
ELABORACIÓN Y EVALUACIÓN DEL CASO DE NEGOCIO

• Cada proyecto de Análisis de Big Data debe comenzar con la definición de un caso de
negocios que incluya:
• Alcance
• Una justificación bien fundamentada
• Objetivos de negocios
• Presupuestos y otros recursos
• Resultados esperados y como evaluarlos

• El caso de negocios debe estar bien documentado para que pueda ser formalmente
evaluado antes de proceder con el proyecto

• Esta evaluación ayuda a entender los recursos que serán necesarios y cuáles serán los
riesgos y desafíos a los que habrá que enfrentarse.
4
ELABORACIÓN Y EVALUACIÓN DEL CASO DE NEGOCIO

5
ELABORACIÓN Y EVALUACIÓN DEL CASO DE NEGOCIO
• Identificar con claridad los objetivos de negocios y los resultados esperados
facilita la identificación de KPIs para medir el éxito del proyecto.

• Disponer de los requerimientos bien documentados puede ayudar a


determinar si Big Data es una solución para los problemas/desafíos que se
busca resolver

• Es importante relacionar los objetivos a las 5Vs que caracterizar a Big Data

• La estimación de los presupuestos, (Capital Humano, tecnología,


entrenamiento, apoyo externo), debe hacerse en un contexto de objetivos y
riesgos bien identificados.

6
IDENTIFICACIÓN DE LAS FUENTES DE DATOS
• Esta etapa del ciclo de vida tiene por objetivo identificar los
conjuntos de datos, (y sus fuentes), requeridos para el proyecto de
análisis en cuestión

• Ampliar la variedad de fuentes de datos puede incrementar la


probabilidad de encontrar patrones ocultos y correlaciones

• Cuando no tenemos muy claro que es lo que estamos buscando,


ampliar las fuentes de datos puede ayudar a clarificar las ideas

• Dependiendo de los objetivos del proyecto las fuentes pueden ser


internas o externas

7
ADQUISICIÓN Y FILTRADO DE DATOS

• Durante esta etapa los datos son obtenidos/adquiridos de todas las fuentes de datos
identificadas y sometidas a un proceso de filtrado para eliminar datos inconsistentes o que
no tienen valor para el proyecto de análisis.

• Dependiendo del tipo de dato, pueden provenir de un conjunto paquetizado de


archivos, (compra de datos a terceras partes) o puede ser un proceso de integración a
través de una API, (ejemplo Twitter)

• En el caso de fuentes externas es posible que se deban descartar grandes volúmenes de


datos por ser irrelevantes

• Los datos filtrados deberían poder ser resguardados para otro posibles proyectos de
análisis.
8
ADQUISICIÓN Y FILTRADO DE DATOS - 2

• Una vez que los datos, (internos y externos) han sido filtrados, los mismos deben ser persistidos.

• La metadata de las fuentes de datos puede ser incorporada mediante un proceso de


automatización de manera de facilitar la clasificación y las consultas

• La metadata debe mantenerse actualizada y disponible a lo largo de toda la vida útil de las
fuentes de datos

9
ADQUISICIÓN Y FILTRADO DE DATOS - 3
• Varias herramientas del mercado,
(propietarias y libres), proveen soporte
automatizado para gestionar metadata

Tomado Big Data Fundamentals, Tomas Erl

10
EXTRACCIÓN DE DATOS

• Los datos identificados como entradas para el proyecto de análisis pueden tener un
formato incompatible con la solución de Big Data que se está diseñando

• Esta incompatibilidad puede ser mucho más frecuente cuando las fuentes son externas

• La etapa de extracción de datos tiene por objetivo tomar los datos de las diferentes
fuentes y transformarlos, cuando sea necesario, en un formato que sea compatible con
nuestra solución de Big Data.

• La complejidad de este proceso esta determinada por la capacidad del diseño para
procesar diferentes tipos de datos y la complejidad del problema a resolver

11
EXTRACCIÓN DE DATOS - EJEMPLOS
Ejemplo1

Ejemplo 2

Tomado Big Data Fundamentals, Tomas Erl 12


VALIDACIÓN Y LIMPIEZA DE DATOS

• En sistemas tradicionales la validación de los datos esta embebida dentro


de las funciones del sistema

• En Big Data, los datos pueden ser no estructurados y sin validaciones


previas o demasiado “livianas”. En muchos casos resulta complejo
establecer reglas consistentes de validación

• Esta etapa del ciclo de vida, busca establecer reglas de validación y


remover datos inválidos

• La potencial redundancia de datos entre múltiples datasets, puede ser


usada para explorar conexiones entre estos y así ensamblar parámetros de
validación y detección de datos faltantes

13
VALIDACIÓN Y LIMPIEZA DE DATOS

=
OK

1 aaa 111 11a No OK


1 aaa 111 11a
2 bbb 121 12a 2 bbb 121 33v
3 ccc 122 14d 3 ccc 122
4 ddd 321 21a 4 ddd 321
Dataset A Dataset B

14
VALIDACIÓN Y LIMPIEZA DE DATOS
• Para procesamiento batch, esta etapa puede ser implantada a través de un operación
de ETL

• Para procesamiento en tiempo real, se requiere un desarrollo más complejo que debe
ser ejecutado en memoria

• La procedencia de las fuentes puede ser una variable importante al momento de


determinar la calidad de datos que pueden estar bajo cuestionamiento

• Tener presente que datos que pueden ser inválidos podrían tener valor, dado que
pueden estar ocultando patrones o tendencias. La anormalidad de un dato puede estar
indicando un cambio, en por ejemplo, los hábitos de un conjunto de clientes.

15
AGREGACIÓN Y REPRESENTACIÓN

• Los datos pueden extenderse a través de múltiples datasets, lo que requiere


que estos se unan mediante campos comunes (por ejemplo, fecha o ID). En
otros casos, los mismos campos de datos pueden aparecer en múltiples
datasets, (por ejemplo, fecha de nacimiento).

• De cualquier manera, se requiere un método de conciliación de datos o se debe


determinar el dataset que representa el valor correcto.

• La etapa de agregación y representación de datos se dedica a integrar múltiples


conjuntos de datos para llegar a una vista unificada.

16
AGREGACIÓN Y REPRESENTACIÓN

Realizar esta etapa puede complicarse debido a las diferencias en:

• Estructura de datos: Aunque el formato de datos puede ser el mismo, el modelo de


datos puede ser diferente.

• Semántica: Un valor que se etiqueta de forma diferente en dos datasets diferentes


puede significar lo mismo.

Conciliar estas diferencias puede requerir una lógica compleja que se debería ejecuta
automáticamente sin necesidad de intervención humana. Los grandes volúmenes
procesados por las soluciones de Big Data pueden hacer que la agregación de datos sea
una operación que requiera mucho tiempo y esfuerzo.

17
AGREGACIÓN Y REPRESENTACIÓN

• Los potenciales futuros requerimientos de análisis de datos se deben considerar durante esta
etapa para ayudar a fomentar el reuso de activos de datos

• Es importante entender que los mismos datos pueden ser almacenados en muchas formas
diferentes. Una forma puede ser más adecuada para un tipo particular de análisis que otra.

• Por ejemplo, los datos almacenados como BLOB, (Binary Large Object), serían de poca utilidad si el
análisis requiere acceso a campos de datos individuales.

• Una estructura de datos estandarizada por la solución Big Data puede actuar como un
denominador común que puede utilizarse para una serie de técnicas y proyectos de análisis. Esto
puede requerir el establecimiento de un repositorio central de análisis estándar, como una base de
datos NoSQL.

18
AGREGACIÓN Y REPRESENTACIÓN

ID NyAP Prod Opin


ID NyAP ID Produ ID Opin

Dataset A Dataset B Dataset C Dataset D

19
UN VISTA FUNCIONAL CON ENFOQUE EN DATA LAKE

Gobierno de datos y Seguridad

Framework de Ingestión de datos – batch – real time - streaming


EDW ODS
Dashboards
Datos
estructurados Gestión de Motor de Gestión de Datos
ESB
Metadata reglas Maestros

DATA LAKE
Area de datos Reportes
confiables – única operacionales
Area versión de la verdad
Area de
transiente
Datos
de carga
crudos Area de datos
refinados
Auto servicio
Area de
Datos Semi y no experimentación -
estructurados Sandbox

Almacenamiento
Data discovery

20
ANÁLISIS DE DATOS

• La etapa de análisis de datos tiene por objetivo realizar la tarea de


análisis real, que normalmente implica uno o más tipos de Analytics.

• Esta etapa puede ser de naturaleza iterativa, especialmente si el


análisis de los datos es exploratorio, de modo que el proceso se repita
hasta que se descubra el patrón o correlación apropiados.

• (El enfoque del análisis exploratorio se explica en breve, junto con el


análisis confirmatorio.)

21
ANÁLISIS DE DATOS

• Dependiendo del tipo de análisis requerido, esta etapa puede ser tan
simple como consultar un conjunto de datos para conformar una
agregación que ayude a una simple comparación.

• Pero puede ser tan complejo como combinar la minería de datos y


técnicas complejas de análisis estadístico para descubrir patrones y
anomalías, o para generar un modelo estadístico o matemático para
describir las relaciones entre variables.

• El enfoque adoptado al realizar esta etapa puede clasificarse como


análisis confirmatorio o análisis exploratorio (este último está
vinculado a la minería de datos).
22
ANÁLISIS DE DATOS
Análisis de Datos
Data Mining

Confirmatorio Exploratorio

Ejemplos de uno y otro…..?

23
ANÁLISIS DE DATOS
• El análisis de datos Confirmatorio es un enfoque deductivo en el que se propone previamente la causa del
fenómeno investigado.

• La causa o suposición propuesta genera una hipótesis.

• Los datos se analizan para probar o refutar la hipótesis y proporcionar respuestas definitivas a preguntas
específicas.

• Normalmente se utilizan muestras de datos.

• Los hallazgos inesperados o anomalías generalmente se ignoran ya que se asumió una causa predeterminada.

24
ANÁLISIS DE DATOS
• El análisis exploratorio de datos es un enfoque inductivo que está estrechamente
asociado a la minería de datos.

• No se generan hipótesis ni suposiciones predeterminadas.

• En su lugar, los datos se exploran a través del análisis para desarrollar una comprensión de
la causa del fenómeno.

• Aunque no proporciona respuestas definitivas, este método proporciona una dirección


general que puede facilitar el descubrimiento de patrones o anomalías.

• Se usan grandes cantidades de datos y análisis visuales.


25
VISUALIZACIÓN DE DATOS

• La capacidad de analizar cantidades masivas de datos y encontrar información útil tiene


poco valor si los únicos que pueden interpretar los resultados son los analistas.

• La etapa de visualización de datos tiene por objetivo aplicar técnicas y herramientas de


visualización para comunicar gráficamente los resultados del análisis de manera que
puedan ser interpretados, de manera eficiente y eficaz, por parte de los usuarios del
negocio

• Los usuarios del negocio deben ser capaces de comprender los resultados con el fin de
obtener valor del análisis y posteriormente tener la capacidad de proporcionar
retroalimentación con la etapa de Análisis de Datos

26
VISUALIZACIÓN DE DATOS

28
UTILIZACIÓN DE LOS RESULTADOS

• La etapa de Utilización de Resultados del Análisis tiene por objetivo determinar cómo y
dónde se pueden aprovechar aún más los datos del análisis.

• Un uso de los resultados del Análisis puede ser la elaboración de modelos que
encapsulen nuevas percepciones y entendimientos sobre la naturaleza de los patrones y
relaciones que existen dentro de los datos que se analizaron. Un modelo puede ser una
ecuación matemática, un conjunto de reglas o prototipos de simulación

• Los modelos se pueden utilizar para optimizar los procesos de negocios, nueva
funcionalidad para aplicaciones de software o la adquisición de nueva tecnología.

29
MÉTODOS DE ANÁLISIS DE DATOS
• Los métodos para Análisis de datos:

• Análisis estadístico
• Análisis visual
• Máquinas de aprendizaje
• Análisis Semántico
• Análisis de mapeo de tópicos

30
MÉTODOS DE ANÁLISIS

• Los métodos
Análisis de análisisAnálisis
estadístico se pueden agrupar de Máquinas
Visual la siguientedemanera:Análisis semántico
Aprendizaje
• A/B Testing • Heat Maps • Clasificación • Procesamiento de
lenguaje natural
• Correlación • Análisis de series • Clustering
de tiempo • Analytics de texto
• Regresión • Outlier Detection
• Análisis de redes • Análisis de
• Filtering “sentimiento”
• Análisis espacial
de datos

31
ANÁLISIS ESTADÍSTICO

• Este tipo de análisis utiliza métodos estadísticos como medio para analizar datos.

• Este tipo de análisis se utiliza comúnmente para describir los conjuntos de datos a
través de una síntesis, tales como proporcionar la media, la mediana u otro
concepto estadístico que permita sacar conclusiones del universo de datos.

• También se puede utilizar para inferir patrones y relaciones dentro del conjunto de
datos, tales como regresión y correlación.

• Vamos a describir los siguientes tipos de análisis estadístico:


• A / B testing
• Correlación
• Regresión

32
A/B TESTING

• A/B Testing, también conocidas como pruebas de división o de compartimiento,


comparan dos versiones de un elemento para determinar qué versión es superior en
función de una métrica predefinida.

• El elemento puede ser una gama de cosas. Por ejemplo, puede ser un contenido (como
una página Web) o una oferta para un producto o servicio (como ofertas de artículos
electrónicos).

• La versión actual del elemento se denomina versión de control, mientras que la versión
modificada se denomina tratamiento.

• Ambas versiones se someten a un experimento simultáneamente. Las observaciones se


registran para determinar qué versión tiene más éxito.
33
A/B TESTING

• Aunque A/B Testing se puede implementar en casi cualquier dominio, se utiliza con
más frecuencia en marketing.

• Generalmente, el objetivo es medir el comportamiento humano con el objetivo de


aumentar las ventas o inducir al uso de un dado servicio, (pago por débito automático)

• En otras áreas, como los dominios científicos, el objetivo puede ser simplemente
observar qué versión funciona mejor para mejorar un proceso o producto

• Google, por ejemplo, ofrece facilidades para este


tipo de análisis

34
A/B TESTING

• Algunas preguntas que pueden responderse con este tipo de método:

• Es la nueva versión de esta droga mejor que la anterior?

• Tendrá la nueva página de home banking mayor aceptación que la vigente?

• El contenido de este correo hará que más clientes actualicen sus datos
personales?

• Con esta nueva promoción de costos del peaje podremos reducir el tráfico en
horas pico?

• Otros ejemplos…?
35
CORRELACIÓN

• El análisis de correlación es una técnica utilizada para determinar si dos variables


están relacionadas entre sí.

• Si se descubre que están relacionadas, el siguiente paso es determinar cuál es esa


relación.

• Un ejemplo de una relación entre dos variables: El valor de la variable A aumenta


cada vez que aumenta el valor de la variable B.

• Podemos estar más interesados en descubrir cuan estrechamente están


relacionadas las variables A y B, lo que significa que también queremos analizar
hasta qué punto la Variable B aumenta en relación con el aumento de la Variable A.
36
CORRELACIÓN
• El uso de la correlación ayuda a desarrollar un entendimiento de un conjunto dado
de datos y encontrar relaciones que pueden ayudar a explicar un dado fenómeno.

• La correlación se utiliza comúnmente para la minería de datos en donde la


identificación de relaciones entre variables en un conjunto de datos ayuda al
descubrimiento de patrones y anomalías.

• Este tipo de análisis ayuda a identificar la naturaleza del conjunto de datos o la


causa de un fenómeno

37
CORRELACIÓN
• Algunas preguntas que pueden responderse con este tipo de método:

• La distancia entre una ciudad y el mar impacta en la temperatura media?

• Todos los alumnos de excelente puntaje en la secundaría, tienen el mismo


rendimiento en la Universidad?

• Tiene el costo del boleto un impacto en la frecuencia de viajes de los usuarios?

• Qué influencia tienen los fines de semana largos en la productividad de los


ingenieros?

• Otros ejemplos…?

38
ANÁLISIS DE REGRESIÓN
• La técnica de análisis de Regresión explora cómo una variable dependiente está
relacionada con una variable independiente dentro de un conjunto de datos.

• Como ejemplo de escenario, la regresión podría ayudar a determinar el tipo de relación


que existe entre la temperatura (variable independiente) y el rendimiento del cultivo
(variable dependiente).

• La aplicación de esta técnica ayuda a determinar cómo cambia el valor de la variable


dependiente en relación con los cambios en el valor de la variable independiente.

• Cuando la variable independiente aumenta, por ejemplo, ¿aumenta la variable


dependiente? En caso afirmativo, ¿es el aumento una proporción lineal o no lineal?

39
ANÁLISIS DE REGRESIÓN

• Puedo tener más de una variable independiente al mismo tiempo.

• Sin embargo, en estos casos sólo una variable independiente puede cambiar. Las
otras se mantienen constantes.

• La regresión puede ayudar a comprender mejor un dado fenómeno y por qué


ocurrió.

• También puede usarse para hacer predicciones sobre los valores de la variable
dependiente mientras aún es desconocida.

40
ANÁLISIS DE REGRESIÓN

1 variable explicativa Modelos de regresión 2+ variables explicativas

Simple Múltiple

Lineal No lineal Lineal No lineal

41
ANÁLISIS DE REGRESIÓN

• Algunas preguntas que pueden responderse con este tipo de método:

• Cuáles son las chances de que los días de lluvia intensa, (+de 50mm), se
incremente el flujo de tráfico particular?

• Si incrementamos las horas de publicidad en un 45% que chance tendremos de


aumentar las ventas?

• Aumentar un 5% el peaje en horas pico ayudaría a reducir el flujo de tránsito que


ingresa en la ciudad?

• Otros ejemplos…?
42
REGRESIÓN VS. CORRELACIÓN

• La regresión y la correlación tienen algunas diferencias importantes.

• La correlación no implica una causalidad. El cambio en el valor de una variable


puede no ser responsable del cambio en el valor de la segunda variable, aunque
ambas pueden cambiar a la misma tasa.

• La correlación asume que ambas variables son independientes.

• La regresión, por otro lado, trata con variables dependientes e independientes


que ya han sido identificadas.

43
REGRESIÓN VS. CORRELACIÓN

• La regresión implica que existe un grado de causalidad entre las variables


dependientes e independientes que puede ser directa o indirecta.

• Dentro de Big Data, la correlación se puede aplicar primero para descubrir si existe
una relación.

• La regresión se puede aplicar para explorar la relación y predecir los valores de la


variable dependiente, basándose en los valores conocidos de la variable
independiente.

44
ANÁLISIS VISUAL

• El análisis visual es una forma de análisis de datos que implica la representación


gráfica de datos para permitir o mejorar su percepción visual.

• Basado en la premisa de que los humanos pueden entender y sacar conclusiones


de los gráficos más rápidamente que a partir del texto, el análisis visual actúa como
una herramienta de descubrimiento en el campo de Big Data.

• El objetivo es utilizar representaciones gráficas para desarrollar una comprensión


más profunda de los datos que se analizan.

• Específicamente, ayuda a identificar y resaltar patrones ocultos, correlaciones y


anomalías.

45
ANÁLISIS VISUAL

• El análisis visual también está directamente relacionado con el análisis exploratorio


de datos, ya que estimula la formulación de preguntas desde diferentes ángulos.

• Esta apartado describe los siguientes tipos de análisis visual:


• Heat Maps
• Análisis de series temporales

46
HEAT MAPS

• Los mapas de calor son una técnica eficaz de análisis visual para expresar
patrones, composiciones de datos a través la relación Part-whole y/o
distribuciones geográficas de datos.

• También facilitan la identificación de áreas de interés y el descubrimiento de


valores extremos (altos / bajos) dentro de un conjunto de datos.

• Por ejemplo:
• Para visualizar la distribución de ciertas enfermedades por regiones.

• Distribución de ventas por regiones: Verde indica regiones de ventas dentro de lo planificado, rojo indica
zonas de ventas deprimidas

47
HEAT MAPS

• El mapa de calor es una representación visual, que codifica valores


numéricos en base a colores.

• A cada valor o rango de valores se le asigna un color según su tipo, o el rango


en el cual cae.

• Por ejemplo, un mapa de calor puede asignar los valores de 0 -3 al color rojo,
4 - 6 al ámbar y 7 - 10 al verde.

• Un mapa de calor puede tener la forma de un gráfico de áreas o un mapa


específico, como se muestra en las siguientes ejemplos.

48
HEAT MAPS

49
HEAT MAPS – ALGUNAS HERRAMIENTAS

50
ANÁLISIS DE SERIES DE TIEMPO
• Este tipo de análisis permite analizar las variaciones de un conjunto de datos en intervalos
determinados de tiempo

• Una serie temporal es una colección ordenada de datos registrados en intervalos de


tiempo regulares. Un ejemplo es la serie de tiempo que representa las cifras de ventas al
final de cada mes.

• El análisis de series de tiempo nos ayuda a descubrir patrones dentro de datos que son
dependientes del tiempo. Una vez identificado, el patrón se puede extrapolar para
predicciones futuras.

• Por ejemplo, para identificar los patrones de ventas estacionales, las cifras mensuales de
ventas se representan como una serie temporal que ayuda a pronosticar las cifras de
ventas para la próxima temporada.

51
ANÁLISIS DE SERIES DE TIEMPO

• Los análisis de series temporales se usan, generalmente, para pronosticar mediante


la identificación de tendencias a largo plazo, patrones periódicos estacionales y
variaciones irregulares a corto plazo en el conjunto de datos.

• A diferencia de otros tipos de análisis, este tipo siempre incluye el tiempo como
una variable de comparación.

• Una serie temporal se expresa generalmente con un gráfico de líneas, con el


tiempo trazado en el eje x y el valor de datos registrados trazados en el eje y.

52
ANÁLISIS DE SERIES DE TIEMPO

Este gráfico de líneas representa una serie de tiempo de ventas de 1990 a 1996
Tomado Big Data Fundamentals, Tomas Erl

53
ANÁLISIS DE SERIES DE TIEMPO

• La serie temporal presentada en el gráfico de líneas abarca siete años.

• Los picos uniformemente espaciados hacia el final de cada año muestran


patrones periódicos estacionales (ventas de Navidad).

• Los círculos rojos punteados representan variaciones irregulares a corto


plazo.

• La línea azul muestra una tendencia al alza, lo que indica un aumento en las
ventas

54
ANÁLISIS DE SERIES DE TIEMPO

• Ejemplos de preguntas que podemos responder con este tipo de análisis:

• ¿Cuánto rendimiento debe esperar el agricultor basado en datos históricos


de otras campañas?

• ¿Cuál es el aumento esperado de la población en los próximos 5 años?

• ¿La disminución actual de las ventas es un hecho único o se produce


regularmente ?

55
ANÁLISIS DE SERIES DE TIEMPO – ALGUNAS HERRAMIENTAS

56
MAQUINAS DE APRENDIZAJE, (MACHINE LEARNING)

• Los humanos son buenos en detectar patrones y relaciones dentro de los datos.
Pero, por otro lado, no podemos procesar grandes cantidades de datos en
tiempos muy cortos.

• Las máquinas, por otro lado, son muy hábiles en procesar grandes cantidades de
datos en tiempos muy cortos, pero sólo si saben cómo hacerlo.

• Si el conocimiento humano puede combinarse con la velocidad de


procesamiento de las máquinas, estas podrán procesar grandes cantidades de
datos sin requerir mucha intervención humana.

• Este es el concepto básico de las máquinas de aprendizaje.


57
MAQUINAS DE APRENDIZAJE, (TIPOS DE MÁQUINAS)

Máquinas de
Aprendizaje

Aprendizaje Aprendizaje Aprendizaje


Aprendizaje Aprendizaje
no Profundo
supervisado reforzado profundo
supervisado reforzado

58
MAQUINAS DE APRENDIZAJE, (MACHINE LEARNING)

• El aprendizaje automático evolucionó de izquierda a derecha como se muestra en el diagrama anterior.

• Inicialmente, los investigadores comenzaron con el aprendizaje supervisado.

• Esto fue seguido por un aprendizaje no supervisado, donde la máquina está hecha para aprender por sí
sola sin ninguna supervisión

• Los científicos descubrieron además que puede ser una buena idea “recompensar” a la máquina cuando
hace el trabajo de la manera esperada y llegó el aprendizaje reforzado

• La información disponible en estos días se ha vuelto tan enorme que las técnicas convencionales
desarrolladas hasta el momento no ha podido dar respuesta a todos los problemas que se plantearon
frente al crecimiento de Big Data.

• Así, llegó el aprendizaje profundo donde el cerebro humano es simulado con las Redes Neuronales (ANN).
Esto implica una gran exigencia a las arquitecturas actuales de computadoras.
59
MAQUINAS DE APRENDIZAJE, (MACHINE LEARNING)

• Con Deep Learning estamos resolviendo muchos de los problemas que antes fueron
demasiado complejos o imposible de resolver.

• La técnica ahora está más avanzada al dar incentivos al Deep Learning a partir de hacer
aprendizaje reforzado s y estamos, por ahora, en el nivel más avanzado de máquinas de
aprendizaje.

60
MAQUINAS DE APRENDIZAJE, DEFINICIONES
Tipo de Máquina de Definición/Descripción
aprendizaje
En el aprendizaje supervisado, los algoritmos trabajan con datos “etiquetados” intentado encontrar una
Aprendizaje función que, dadas las variables de entrada (input data), les asigne la etiqueta de salida adecuada. El
supervisado algoritmo se entrena con un “histórico” de datos y así “aprende” a asignar la etiqueta de salida adecuada a
un nuevo valor, es decir, predice el valor de salida

El aprendizaje no supervisado tiene lugar cuando no se dispone de datos “etiquetados” para el


Aprendizaje no entrenamiento. Sólo conocemos los datos de entrada, pero no existen datos de salida que correspondan a un
supervisado determinado input. Por tanto, sólo podemos describir la estructura de los datos, para intentar encontrar
algún tipo de organización que simplifique el análisis. Por ello, tienen un carácter exploratorio

No todos los algoritmos ML se pueden clasificar como algoritmos de aprendizaje supervisado o no


Aprendizaje reforzado supervisado. Hay una “tierra de nadie” que es donde encajan las técnicas de aprendizaje por refuerzo.

Este tipo aprendizaje se basa en mejorar la respuesta del modelo usando un proceso de retroalimentación. El
algoritmo aprende observando el mundo que le rodea. Su información de entrada es el feedback o
retroalimentación que obtiene del mundo exterior como respuesta a sus acciones. Por lo tanto, el sistema
aprende a base de ensayo-error.

61
MAQUINAS DE APRENDIZAJE, DEFINICIONES

Tipo de Máquina de Definición/Descripción


aprendizaje
El aprendizaje profundo es un tema que cada vez adquiere mayor relevancia en el campo de la
Aprendizaje profundo inteligencia artificial (IA). Siendo una subcategoría del aprendizaje automático, el aprendizaje
profundo trata del uso de redes neuronales para mejorar cosas tales como el reconocimiento de
voz, la visión por ordenador y el procesamiento del lenguaje natural.

Aplica técnicas de aprendizaje reforzado a las redes neuronales.


Aprendizaje profundo
reforzado

62
Feature Desarrollo del
Engineering modelo y test
Monitorear Fabricar
- Mediciones del modelo - Datos: Acceso y estructura
- Mediciones de performance Métricas - Feature Engineering
del sistema del
Negocio Fabricar Auditoria - Desarrollo del modelo
- Re entrenamiento del modelo y ROI y CM - Testing
- Evaluación del ROI

Métricas Monitorear Gestionar


de
rendimient Reuso de
modelos
o
Gestionar
Desplegar e Integrar
- Nuevos roles
- Estrategia de entrega e Desplegar e
integrar
- Gestión de configuración
integración
- Trazabilidad
- Desarrollo de la aplicación de Desarrollo de Exportación
aplicación de del modelo y - Reuso de modelos desde un
negocios despliegue
negocios repositorio centralizado

63
El contexto del desarrollo de sistemas integrando ML

Recopilación de datos Testing y Gestión de


Debugging Recursos
Configuración Servicios de
Infraestructura,
Verificación de Código desarrollo e
datos de Análisis de Modelos Integración
Machine
Automatización
Learning
Gestión de Procesos
Feature Monitoreo
Engineering Gestión de Metadata
DEVOPS PIPELINE Vista de un ambiente integrado

Especificar
Desarrollar y
necesidades Integrar
testear
y diseñar RELEASE PIPELINE
Equipo de
desarrollo
Repositorio Paquetizar Certificar el Liberar
Centralizado el modelo modelo aplicación

Preparar los Entrenar y Registrar el


datos Evaluar Modelo Monitorear y
Ingenieros de analizar
feedback
ML y
Científicos de
datos REPOSITORIO
DE
DATOS
MODELLING PIPELINE

Análisis de datos y
DATA PIPELINE monitoreo de
desvíos
ALGUNAS REFERENCIAS

• https://azure.microsoft.com/en-us/services/machine-
learning/mlops/

• https://docs.microsoft.com/en-us/azure/machine-
learning/concept-model-management-and-deployment

• https://azure.microsoft.com/es-es/services/devops/

• https://ibm-cloud-architecture.github.io/refarch-data-ai-
analytics/

• www.infoq.com
CONSULTAS

También podría gustarte