XD

ALGORITMO Q - LEARNING
 El objetivo del algoritmo Q-learning es aprender una serie de normas que le diga a un agente qué acción tomar y
bajo qué circunstancias.
 Involucra a un agente, un conjunto de estados y un conjunto de acciones por estado.
 En el algoritmo Q Learning,esta representado por el valor Q de un par (estado,acción) que contiene la suma de
todas las posibles recompensas (actuales y futuras)
Matemáticamente, podemos formalizar el cálculo de los valores Q por medio de la siguiente ecuación:
Q(st,at)=r(st,at)+γmaxat+1Q(st+1,at+1)
Donde:
• El valor de Q óptimo para un par (estado,acción) es la suma de la recompensa recibida cuando se aplica la acción
junto al valor descontado del mejor valor Q que se puede conseguir desde el estado alcanzado al aplicar esa
acción.
Una variante de la ecuacion anterior podría ser la siguiente:
Q′(st,at)=(1−ν)Q(st,at)+ν[r(st,at)+γmaxat+1Q(st+1,at+1)]
Esta segunda ecuación intenta que la actualización de la función sea más gradual, no permitiendo
cambios en una determinada dirección de forma tan brusca, para ello, introduce un factor de
aprendizaje, ν, que controla la variación de Q.
Tomando este concepto desde el punto de vista de probabilidades, tenemos:
El agente puede elegir entre:
 Seleccionar una acción con el valor Q más alto para ese estado (explotación ), o
 seleccionar una acción al azar (exploración ).
La ecuación de la probabilidad de seleccionar la acción at sería:
Donde:
 E es una constante de explotación

 Ast representa todas las posibles acciones que se pueden tomar
desde st.
LAS TORRES DE HANOI
Q LEARNING EN CASOS CONTINUOS
ESTADO CONTINUO:ROBOT ACCION CONTINUA:SISTEMA DE
VIGILANTE CONTROL DE VEHICULO
SISTEMAS CON ESTADOS SISTEMAS CON ACCIONES
CONTINUOS CONTINUAS
RED DE NEURONAS

XD

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

XD

Cargado por

Copyright:

Formatos disponibles

ALGORITMO Q - LEARNING

 Involucra a un agente, un conjunto de estados y un conjunto de acciones por estado.

El agente puede elegir entre:

 E es una constante de explotación

También podría gustarte