Está en la página 1de 9

ALGORITMO Q - LEARNING

 El objetivo del algoritmo Q-learning es aprender una serie de normas que le diga a un agente qué acción tomar y
bajo qué circunstancias.

 Involucra a un agente, un conjunto de estados y un conjunto de acciones por estado.

 En el algoritmo Q Learning,esta representado por el valor Q de un par (estado,acción) que contiene la suma de
todas las posibles recompensas (actuales y futuras)
Matemáticamente, podemos formalizar el cálculo de los valores Q por medio de la siguiente ecuación:

Q(st,at)=r(st,at)+γmaxat+1Q(st+1,at+1)

Donde:

• El valor de Q óptimo para un par (estado,acción) es la suma de la recompensa recibida cuando se aplica la acción
junto al valor descontado del mejor valor Q que se puede conseguir desde el estado alcanzado al aplicar esa
acción.
Una variante de la ecuacion anterior podría ser la siguiente:

Q′(st,at)=(1−ν)Q(st,at)+ν[r(st,at)+γmaxat+1Q(st+1,at+1)]

Esta segunda ecuación intenta que la actualización de la función sea más gradual, no permitiendo
cambios en una determinada dirección de forma tan brusca, para ello, introduce un factor de
aprendizaje, ν, que controla la variación de Q.
Tomando este concepto desde el punto de vista de probabilidades, tenemos:

El agente puede elegir entre:

 Seleccionar una acción con el valor Q más alto para ese estado (explotación ), o
 seleccionar una acción al azar (exploración ).
La ecuación de la probabilidad de seleccionar la acción at sería:

Donde:

 E es una constante de explotación


 Ast representa todas las posibles acciones que se pueden tomar
desde st.
LAS TORRES DE HANOI
Q LEARNING EN CASOS CONTINUOS
ESTADO CONTINUO:ROBOT ACCION CONTINUA:SISTEMA DE
VIGILANTE CONTROL DE VEHICULO
SISTEMAS CON ESTADOS SISTEMAS CON ACCIONES
CONTINUOS CONTINUAS

RED DE NEURONAS

También podría gustarte

  • Biografias
    Biografias
    Documento4 páginas
    Biografias
    Jhon Harold Chafloque
    Aún no hay calificaciones
  • Base de Datos
    Base de Datos
    Documento2 páginas
    Base de Datos
    Jhon Harold Chafloque
    Aún no hay calificaciones
  • Macro 1
    Macro 1
    Documento1 página
    Macro 1
    Jhon Harold Chafloque
    Aún no hay calificaciones
  • Teoria de Colas
    Teoria de Colas
    Documento8 páginas
    Teoria de Colas
    Jhon Harold Chafloque
    Aún no hay calificaciones
  • C
    C
    Documento48 páginas
    C
    Bertin Vargas
    Aún no hay calificaciones
  • Algoritmo de Dijkstra-Codigo
    Algoritmo de Dijkstra-Codigo
    Documento20 páginas
    Algoritmo de Dijkstra-Codigo
    Jhon Harold Chafloque
    Aún no hay calificaciones
  • Codigo de Etica IFAC
    Codigo de Etica IFAC
    Documento157 páginas
    Codigo de Etica IFAC
    chambae
    100% (1)
  • Regla-Trapecio Simple
    Regla-Trapecio Simple
    Documento1 página
    Regla-Trapecio Simple
    Jhon Harold Chafloque
    Aún no hay calificaciones
  • Regla-Simpson-3.8 Compuesto
    Regla-Simpson-3.8 Compuesto
    Documento1 página
    Regla-Simpson-3.8 Compuesto
    Jhon Harold Chafloque
    Aún no hay calificaciones
  • CODIGO
    CODIGO
    Documento5 páginas
    CODIGO
    Jhon Harold Chafloque
    Aún no hay calificaciones
  • Regla-Simpson Simple
    Regla-Simpson Simple
    Documento1 página
    Regla-Simpson Simple
    Jhon Harold Chafloque
    Aún no hay calificaciones
  • Foda-Idea de Negocio
    Foda-Idea de Negocio
    Documento3 páginas
    Foda-Idea de Negocio
    Jhon Harold Chafloque
    Aún no hay calificaciones
  • TRABAJO
    TRABAJO
    Documento1 página
    TRABAJO
    Jhon Harold Chafloque
    Aún no hay calificaciones
  • 2 Calidad Seleccion Donantes
    2 Calidad Seleccion Donantes
    Documento36 páginas
    2 Calidad Seleccion Donantes
    Jhon Harold Chafloque
    Aún no hay calificaciones
  • Car Atul Aaaaa
    Car Atul Aaaaa
    Documento1 página
    Car Atul Aaaaa
    Jhon Harold Chafloque
    Aún no hay calificaciones
  • Problemas Capitulo 2
    Problemas Capitulo 2
    Documento4 páginas
    Problemas Capitulo 2
    Jhon Harold Chafloque
    67% (9)
  • Organ I Grama
    Organ I Grama
    Documento1 página
    Organ I Grama
    Jhon Harold Chafloque
    Aún no hay calificaciones
  • Cubic As
    Cubic As
    Documento2 páginas
    Cubic As
    Jhon Harold Chafloque
    Aún no hay calificaciones