Está en la página 1de 7

APUNTES CURSO AI PYTHON

1. REINFORCEMENT LEARNING

Mecanismo de recompensas a un agente inteligente dependiendo de su comportamiento en


un entorno y el análisis de un intérprete sobre dicho comportamiento, dichas recompensas
pueden ser negativas o positivas.

1.1.ECUACIÓN DE BELLMAN

Ecuación de programación dinámica, en la que se escribe el valor de un problema de decisión


en un determinado punto de tiempo en términos de la recompensa que dan algunas opciones
iniciales y el valor del problema de decisión restante que resulta de esas opciones iniciales.

S – estados
A – acciones

R – recompensas

ɣ - descuento

1.1.1. AGENTE EN EL LABERINTO

Fuego: R= -1; A= {up, down, left, right}


Trofeo: R= +1;

V=1 V=1

V=1

V=1
Al agente conseguir una recompensa positiva, estudiara el estado anterior y estudia el cómo y
por qué consiguió dicha recompensa. El estado anterior al de la recompensa positiva posee un
valor de 1 (V=1), siguiendo esta dinámica cada estado anterior al R=+1 al pertenecer al algoritmo
de funcionamiento correcto se le otorga un valor de 1 (V=1). Esta explicación es vaga e imperfecta
debido a que la presencia de estados de valor 1 en cada paso del algoritmo ideal generara dudas
en la IA, esta problemática es resuelta por la presencia de ganma o descuento (ɣ) en la Ecuación
de Bellman.

1.1.2. PLANTEO DE LA ECUACIÓN DE BELLMAN EN SU FORMA REAL

V(s) – Valor de un estado.


R (s, a) – Recompensa de al estar en el estado actual ‘s’ llevar a cabo una acción ‘a’.
V(s’) – Valor del nuevo estado producido por la acción.
max a – Numero total de acciones disponibles.
ɣ - factor matemático de descuento que proporciona prioridad a estados posteriores.

Teniendo en cuenta que ɣ=0.9 y aplicando la ecuación de Bellman

V=0.7 V=0.8
V=0.6

V=0.7 V=0.9

V=0.8 V=0.9 V=1

V=0.7
1.1.3. EL PLAN

Acciones ideales a seguir según los cálculos realizados mediante la ecuación de Bellman.

1.2. BUSQUEDA DETERMINISTA Y NO DETERMINISTA

1.2.1. BUSQUEDA DETERMINISTA

Proceso en el que el agente realiza una acción específica y previamente determinada.


1.2.2. BUSQUEDA NO DETERMINISTA

Proceso en el que el accionar del agente depende de un conjunto de probabilidades debido a


la presencia de diversas opciones, aleatoriedad; normalmente las situaciones en las que se
encuentra un agente serán no deterministas.
1.2.2.1. PROCESOS DE DECISION DE MARKOV

Proceso utilizado cuando existe aleatoriedad en la toma de decisiones del agente, para ello es
necesario realizar una serie de cambios en la ecuación de Bellman.

Se reemplaza en la ecuación de Bellman el estado a seguir por todos los estados posibles.

Tomando probabilidades aleatorias tenemos:

1.2.2.2. ECUACION DE BELLMAN ESTOCASTICA

V(s) – Valor de un estado.


max a – Número total de acciones disponibles.
R (s, a) – Recompensa de al estar en el estado actual ‘s’ llevar a cabo una acción ‘a’.
ɣ - factor matemático de descuento que proporciona prioridad a estados posteriores.
'
Σ s P (s , a , s ) - Suma de todas las probabilidades sobre todas las acciones posibles.
'

V(s’) – Valor del nuevo estado producido por la acción.


1.3. POLITICA O PLAN

Solo pueden ser implementados de forma literal cuando el proceso no sea estocástico, en caso de
serlo se tiene que calcular un nuevo conjunto de acciones inspiradas en el plan original.

Utilizando la ecuación de Bellman modificada y probabilidades especificas en el


movimiento del agente tenemos un nuevo conjunto de probabilidades a las cuales ya no llamamos
plan si no política de actuación: (10% girar a izquierda o derecha y 80% de ir recto)

0.8 0.8 0.8

0.8

0.8
0.8

0.1 0.1 0.8


0.1

También podría gustarte