Documentos de Académico
Documentos de Profesional
Documentos de Cultura
El objetivo del algoritmo Q-learning es aprender una serie de normas que le diga a un agente qué acción tomar y
bajo qué circunstancias.
En el algoritmo Q Learning,esta representado por el valor Q de un par (estado,acción) que contiene la suma de
todas las posibles recompensas (actuales y futuras)
Matemáticamente, podemos formalizar el cálculo de los valores Q por medio de la siguiente ecuación:
Q(st,at)=r(st,at)+γmaxat+1Q(st+1,at+1)
Donde:
• El valor de Q óptimo para un par (estado,acción) es la suma de la recompensa recibida cuando se aplica la acción
junto al valor descontado del mejor valor Q que se puede conseguir desde el estado alcanzado al aplicar esa
acción.
Una variante de la ecuacion anterior podría ser la siguiente:
Q′(st,at)=(1−ν)Q(st,at)+ν[r(st,at)+γmaxat+1Q(st+1,at+1)]
Esta segunda ecuación intenta que la actualización de la función sea más gradual, no permitiendo
cambios en una determinada dirección de forma tan brusca, para ello, introduce un factor de
aprendizaje, ν, que controla la variación de Q.
Tomando este concepto desde el punto de vista de probabilidades, tenemos:
Seleccionar una acción con el valor Q más alto para ese estado (explotación ), o
seleccionar una acción al azar (exploración ).
La ecuación de la probabilidad de seleccionar la acción at sería:
Donde:
RED DE NEURONAS