Está en la página 1de 2

el machine learning hace posibles sistemas que, mediante entrenamiento, pueden

aprender por sí solos. Este aprendizaje genera predicciones que


pueden emplearse para una toma de decisiones óptima.

4. Toma de decisiones: clasificación


como clasificar los diferentes contextos de toma de decisiones.

cuatro cuestiones clave que varían en los distintos escenarios de toma de


decisiones:

¿Con qué frecuencia recopilamos nueva información?

¿Cómo de rápido cambia el estado o el entorno?

¿Cómo afectan nuestras acciones al entorno?

¿En qué medida los beneficios obtenidos por una acción dependen de la misma?

Dinámica de entorno.- ¿Cómo afecta una acción al entorno de toma de decisión o al


beneficio obtenido por la misma?

Disponibilidad de información.- ¿De qué volumen de información disponemos


inicialmente para la toma de decisiones?

5. Caso 1 de toma de decisiones: modelo predictivo de control

un entorno estable y gran cantidad de información disponible:

El modelo predictivo de control es un modelo algorítmico destinado a la mejora de


las decisiones futuras.
Para ello, aprende la dinámica de un entorno a partir de datos históricos.

multi-armed bandit.
cada acción aporta más información sobre el entorno
el estado o el entorno no cambian con cada acción que ejecutamos.

El multi-armed bandit es un algoritmo de refuerzo que permite tanto explorar como


explotar un conjunto
de opciones alternativas.

El algoritmo recorre todas las opciones para evaluarlas y escoge la que proporcione
una mayor recompensa.

El multi-armed bandit tiene un uso muy extendido, porque permite seleccionar la


mejor opción,
por ejemplo que ofrecer a un usuario para maximizar la recompensa.

toma de decisiones de Markov,


el agente y el entorno interactúan de forma constante: el agente selecciona unas
acciones,
el entorno responde a estas acciones y le presenta nuevas situaciones al agente.

objetivo final es obtener la mayor recompensa al finalizar el proceso.


Por tanto, puede darse una política que implique un sacrificio en una decisión
orientada a un objetivo último.

aprendizaje por refuerzo o reinforcement learning es una técnica de machine


learning en la que el modelo
aprende a ejecutar acciones en un entorno mediante las acciones que lleva a cabo y
la observación de sus consecuencias.
“prueba-error”.

¿Cuál es el criterio que debemos tener en cuenta para establecer si una decisión
alcanza el nivel de calidad requerido?
Dependerá del objetivo final de nuestro proyecto.
debemos contemplar adónde nos dirigimos a medio y largo plazo, para ajustar
acordemente nuestro modelo de toma de decisiones.

A lo largo de este módulo, analizaremos diferentes escenarios y en cada uno de


ellos,
nos plantearemos las siguientes preguntas:

¿Con qué datos contamos?


¿En qué cuadrante de la clasificación de contextos de tomas de decisiones encaja?
¿Cuál es el objetivo?
¿De qué acciones disponemos?

cuatro procesos de toma de decisiones concretos:

Fijación de precios.
Gestión del inventario.
Sugerencias en tiempo real.
Gestión de pedidos.

También podría gustarte