¡Te damos la bienvenida a Scribd!

4-9 TD Learning

Cargado por

0% encontró este documento útil (0 votos)

11 vistas13 páginas

El documento describe tres métodos de aprendizaje reforzado: aprendizaje por diferencias temporales, predicción por diferencias temporales y aprendizaje Q. El aprendizaje por diferencias temporales actualiza estimaciones basándose en estimaciones previas sin necesitar un modelo del entorno. La predicción por diferencias temporales estima valores de función de valor dada una política. El aprendizaje Q estima valores Q y la política óptima de forma incremental y sin necesidad de seguir la política evaluada.

Descripción original:

Título original

4-9_TD_Learning

Derechos de autor

Formatos disponibles

PDF, TXT o lea en línea desde Scribd

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Denunciar este documento

Copyright:

Formatos disponibles

Descargue como PDF, TXT o lea en línea desde Scribd

Marcar por contenido inapropiado

0% encontró este documento útil (0 votos)

11 vistas13 páginas

4-9 TD Learning

Cargado por

Ricy

Copyright:

Formatos disponibles

Descargue como PDF, TXT o lea en línea desde Scribd

Marcar por contenido inapropiado

Saltar a página

Está en la página 1de 13

Buscar dentro del documento

Temporal-difference

Learning
Temporal-difference Learning
• Combinación de las ideas presentadas, tanto en los métodos
de Monte Carlo como en los algoritmos clásicos de
programación dinámica.
• Puede aprender directamente de la experiencia sin requerir el
modelo de la dinámica del entorno.
• Actualiza las estimaciones basándose en estimaciones
previamente aprendidas (bootstraping).
• Relación entre DP, MC y TD es muy importante en la teoría del
aprendizaje reforzado.
Temporal-difference Learning
Temporal-difference prediction
Algoritmo para estimar V ≈ 𝑣π , dada una política π
1. Initialize V(s) arbitrarily, ∀s ∈ S+ , except for V sT = 0
2. Loop forever (for each episode):
3. Initialize arbitrarily S
4. Loop for each step of episode:
5. A ← action given by π for S
6. Take action A, observe R, S′
7. V S ← V S + α R + γV S′ − V S 0 < α < 1 step size
8. S ← S′
9. Until S is terminal state

Temporal-difference Learning
𝑘=0 Policy to be evaluated (π)

0.0 0.0 0.0 0.0

Temporal-difference Learning
𝑘=1 S0 = 5, A0 = ↑

0.0 -0.338 -0.324 -0.334

-0.145 -0.237 -0.264 -0.580

-0.729 -0.451 -0.830 -0.288

-0.482 -0.186 -0.696 0.0

Temporal-difference Learning
𝑘=1
S = 5, A = ↑
0.0 -0.338 -0.324 -0.334 5, ↑ → −1,1, ←
V 5 ← V 5 + 0.5 −1 + V 1 − V 5
-0.145 -0.237 -0.264 -0.580 V 5 ← −0.787

-0.729 -0.451 -0.830 -0.288 S = 1, A =←

5, ↑ → −1,1, ← → −1
-0.482 -0.186 -0.696 0.0 V 1 ← V 1 + 0.5 −1 + V 0 − V 1
V 1 ← −0.669

Temporal-difference Learning
𝑘=1
S = 5, A = ↑
0.0 -0.669 -0.324 -0.334 5, ↑ → −1,1, ←
V 5 ← V 5 + 0.5 −1 + V 1 − V 5
-0.145 -0.787 -0.264 -0.580 V 5 ← −0.787

-0.729 -0.451 -0.830 -0.288 S = 1, A =←

5, ↑ → −1,1, ← → −1
-0.482 -0.186 -0.696 0.0 V 1 ← V 1 + 0.5 −1 + V 0 − V 1
V 1 ← −0.669

Temporal-difference Learning
S0 = 9, A0 = ↑
𝑘=2 9, ↑ → −1,5, ←
V 9 ← V 9 + 0.5 −1 + V 5 − V 9
V 9 ← −1.119
0.0 -0.669 -0.324 -0.334
S=5A=↑
-0.145 -0.787 -0.264 -0.580 9, ↑ → −1,5, ← → −1,1, ←
V 5 ← V 5 + 0.5 −1 + V 1 − V 5
-0.729 -0.451 -0.830 -0.288 V 5 ← −1.228

S = 1, A = ←
-0.482 -0.186 -0.696 0.0
9, ↑ → −1,5, ← → −1,1, ← → −1
V 1 ← V 1 + 0.5 −1 + V 0 − V 1
Temporal-difference Learning V 1 ← −0.835
S0 = 9, A0 = ↑
𝑘=2 9, ↑ → −1,5, ←
V 9 ← V 9 + 0.5 −1 + V 5 − V 9
V 9 ← −1.119
0.0 -0.835 -0.324 -0.334
S0 = 9, A0 = ↑
-0.145 -1.228 -0.264 -0.580 9, ↑ → −1,5, ← → −1,1, ←
V 5 ← V 5 + 0.5 −1 + V 1 − V 5
-0.729 -1.119 -0.830 -0.288 V 5 ← −1.228

S0 = 9, A0 = ↑
-0.482 -0.186 -0.696 0.0
9, ↑ → −1,5, ← → −1,1, ← → −1
V 1 ← V 1 + 0.5 −1 + V 0 − V 1
Temporal-difference Learning V 1 ← −0.835
𝑘 = 500 π𝑘 ≈ π ∗

0.0 -1.000 -2.000 -3.000

-1.000 -2.000 -3.000 -2.000

-2.000 -3.000 -2.000 -1.000

-3.000 -2.000 -1.000 0.0

Optimal policy!
Temporal-difference Learning
Q-learning: Off-policy TD Control
Algoritmo para estimar Q ≈ q∗ & π ≈ π∗
1. Initialize Q(s, a) arbitrarily, ∀s ∈ S+ , a ∈ A, except for Q sT , ∙ = 0
2. Loop forever (for each episode):
3. Initialize arbitrarily S
4. Loop for each step of episode:
5. Choose A from S using policy derived from Q
6. Take action A, observe R, S′
7. Q S, A ← Q S, A + α R + γ max Q S′ , a − Q S, A 0<α<1 step size
a
8. S ← S′
9. Until S is terminal state

Temporal-difference Learning

También podría gustarte

Dios Usa Lápiz Labial (Karen Berg)
Documento223 páginas
Dios Usa Lápiz Labial (Karen Berg)
Analia Nawrath
100% (3)
Guia de Ahumados Smoke King
Documento118 páginas
Guia de Ahumados Smoke King
Pamela Oso
Aún no hay calificaciones
Ejercicio 1 de Metodos Numericos
Documento10 páginas
Ejercicio 1 de Metodos Numericos
Edwin Sanchez
50% (2)
Monografia Motores
Documento22 páginas
Monografia Motores
Yitshak Vargas Yovera
100% (3)
Ejercicios Propuestos Suelos II
Documento15 páginas
Ejercicios Propuestos Suelos II
Pier Diego H Cam
Aún no hay calificaciones
Sesión de Multiploicación y División de Fracciones
Documento8 páginas
Sesión de Multiploicación y División de Fracciones
Clau Montalban
Aún no hay calificaciones
Propuesta de Investigación de Mercados
Documento1 página
Propuesta de Investigación de Mercados
Mauricio Orozco
Aún no hay calificaciones
Tema 3
Documento16 páginas
Tema 3
Isaias Jaaziel Martinez
Aún no hay calificaciones
Metodos Estadisticos
Documento4 páginas
Metodos Estadisticos
Alex Sabogal
Aún no hay calificaciones
CINEMATICA
Documento5 páginas
CINEMATICA
Quispe Martinez Alberth Enrique
Aún no hay calificaciones
2.4.1 Ejemplo Prueba KS
Documento2 páginas
2.4.1 Ejemplo Prueba KS
Kevin Gutierrez
Aún no hay calificaciones
Ejercicios Simulacion
Documento3 páginas
Ejercicios Simulacion
Pedro Cabana Bautista
67% (3)
Regresion Lineal 1
Documento22 páginas
Regresion Lineal 1
Maryory Urdaneta Herrera
Aún no hay calificaciones
Ejercicios
Documento6 páginas
Ejercicios
yesica rivera
Aún no hay calificaciones
Caida Libre Calculos
Documento3 páginas
Caida Libre Calculos
marco
Aún no hay calificaciones
Quiroz Paez Melissa - Tarea Interpolacion
Documento6 páginas
Quiroz Paez Melissa - Tarea Interpolacion
David Portilla
Aún no hay calificaciones
Lab. 3 Descarga Por Orificios
Documento3 páginas
Lab. 3 Descarga Por Orificios
AlvaroAntezana
Aún no hay calificaciones
$RNR4KDH
Documento8 páginas
$RNR4KDH
Frank
Aún no hay calificaciones
Medidas Dispersión EJERCICIOS RESUELTOS
Documento14 páginas
Medidas Dispersión EJERCICIOS RESUELTOS
Rebeca Lizeth SH
Aún no hay calificaciones
Tarea3 208046A 953 Camilo Huertas
Documento13 páginas
Tarea3 208046A 953 Camilo Huertas
Camilo
Aún no hay calificaciones
9.69 9.71
Documento2 páginas
9.69 9.71
LUIS DAVID ZU�IGA SOLIS
Aún no hay calificaciones
Actividad 1 TEMA 2 Regresión Lineal Multiple - Ejercicio - 2 para Resolver en Clase
Documento4 páginas
Actividad 1 TEMA 2 Regresión Lineal Multiple - Ejercicio - 2 para Resolver en Clase
rogelio nuevo alvarado
Aún no hay calificaciones
Lab6 - Caracteristica Del BJT
Documento8 páginas
Lab6 - Caracteristica Del BJT
Josue Lara
Aún no hay calificaciones
Regresion Lineal Multiple
Documento6 páginas
Regresion Lineal Multiple
EDITH GONZALEZ FLORES
Aún no hay calificaciones
Informe Nombre Del Trabajo Interpolacion
Documento6 páginas
Informe Nombre Del Trabajo Interpolacion
David Portilla
Aún no hay calificaciones
Estadistica Unad
Documento10 páginas
Estadistica Unad
Jeisson Medina
Aún no hay calificaciones
Interpolacion de Newton
Documento4 páginas
Interpolacion de Newton
Edson Arturo Quispe Sánchez
Aún no hay calificaciones
Correlacion, Altura Vs Peso
Documento2 páginas
Correlacion, Altura Vs Peso
Cesar Santana
Aún no hay calificaciones
Ejercicio Calculo de Poblacion Futura
Documento7 páginas
Ejercicio Calculo de Poblacion Futura
chilligua consorcio
Aún no hay calificaciones
Practica de Ondas
Documento7 páginas
Practica de Ondas
Jhovanna Paxi
Aún no hay calificaciones
Unidad 9 - Formulas
Documento4 páginas
Unidad 9 - Formulas
hellen cossio
Aún no hay calificaciones
Parcial 1 Metodos Numericos
Documento7 páginas
Parcial 1 Metodos Numericos
Bryan Julian Ariza Fonceca
Aún no hay calificaciones
Taller Estadistica
Documento8 páginas
Taller Estadistica
Rafael Quiroga
Aún no hay calificaciones
TAREASEMANA4
Documento8 páginas
TAREASEMANA4
Branco Tiznado Rodriguez
Aún no hay calificaciones
Determinacion de La Permeabilidad Magnetica Del Aire
Documento2 páginas
Determinacion de La Permeabilidad Magnetica Del Aire
Cesar Gonzalez
Aún no hay calificaciones
Expo Fisica
Documento3 páginas
Expo Fisica
Noelia Rojas
Aún no hay calificaciones
Pronósticos Regresión
Documento11 páginas
Pronósticos Regresión
Michael Yory
Aún no hay calificaciones
Ejercicio de Levas
Documento4 páginas
Ejercicio de Levas
Luis Santisteban
Aún no hay calificaciones
Tablas Amortizacion Constante
Documento3 páginas
Tablas Amortizacion Constante
Heidi Diana Asencios Ccellccascca
Aún no hay calificaciones
Deber 06 MazonA
Documento19 páginas
Deber 06 MazonA
Anonymous Lc8qmdeY1g
Aún no hay calificaciones
Informe 2
Documento5 páginas
Informe 2
Valeria Chura Estraver
Aún no hay calificaciones
Ejercicios de Crecimiento Poblacional Exponencial, Interés Compuesto e Interés Compuesto Continuamente
Documento19 páginas
Ejercicios de Crecimiento Poblacional Exponencial, Interés Compuesto e Interés Compuesto Continuamente
paulna aguilera
Aún no hay calificaciones
Tarea 2-2-CACERES PDF
Documento5 páginas
Tarea 2-2-CACERES PDF
Sara Cáceres
Aún no hay calificaciones
Estadistica Unad
Documento9 páginas
Estadistica Unad
Jeisson Medina
Aún no hay calificaciones
Taller 2
Documento7 páginas
Taller 2
Davyt Torres
Aún no hay calificaciones
Informe 5
Documento9 páginas
Informe 5
Wilian Lopezrocha
Aún no hay calificaciones
Vibracion Forzada Amortiguada-Alonso Apaza H.
Documento1 página
Vibracion Forzada Amortiguada-Alonso Apaza H.
alonso
Aún no hay calificaciones
Bloque II Ej 4
Documento5 páginas
Bloque II Ej 4
Alejandra Fernández
Aún no hay calificaciones
Interpolacion
Documento7 páginas
Interpolacion
delbhergarciamedina
Aún no hay calificaciones
Tabla de Frecuencia Num. de Lista 13
Documento10 páginas
Tabla de Frecuencia Num. de Lista 13
Victor Manuel Montiel Rodriguez
Aún no hay calificaciones
Grados ESPOL
Documento13 páginas
Grados ESPOL
kevin isaias
Aún no hay calificaciones
Análisis I.4
Documento4 páginas
Análisis I.4
natalia orozco
Aún no hay calificaciones
Ing. Carretera T4 - Resendiz - Zepeda.AlanJair
Documento4 páginas
Ing. Carretera T4 - Resendiz - Zepeda.AlanJair
Alan Resendiz
Aún no hay calificaciones
Dispositivos Electrónicos
Documento4 páginas
Dispositivos Electrónicos
alex ackerman
Aún no hay calificaciones
MN PérezVillacorte Carol P1 P1
Documento10 páginas
MN PérezVillacorte Carol P1 P1
Isa Olmedo
Aún no hay calificaciones
Parcial 3er Corte
Documento6 páginas
Parcial 3er Corte
pAOLA MORALES
Aún no hay calificaciones
LABORATORIO. LEY DE OHM - Removed
Documento7 páginas
LABORATORIO. LEY DE OHM - Removed
Joelly Solis Ramirez
Aún no hay calificaciones
Taller VA (1) 12domingo
Documento14 páginas
Taller VA (1) 12domingo
Maria Elena Arana Gutierrez
Aún no hay calificaciones
Sullon Li Jaime Franksue - Examen Final Estabilidad
Documento10 páginas
Sullon Li Jaime Franksue - Examen Final Estabilidad
franksue
Aún no hay calificaciones
Matriz de Transición de Proceso Estocástico
Documento3 páginas
Matriz de Transición de Proceso Estocástico
Carlos Sevilla
100% (1)
Deber 2
Documento9 páginas
Deber 2
Alejandro Cañar
Aún no hay calificaciones
Pruebas Estadísticas 2da Parte
Documento42 páginas
Pruebas Estadísticas 2da Parte
Alondra Navor
Aún no hay calificaciones
Reforzamiento Integral-Trapezoidal-Cuadratura
Documento7 páginas
Reforzamiento Integral-Trapezoidal-Cuadratura
CN Kenyu Alex
Aún no hay calificaciones
Ejercicios 2
Documento14 páginas
Ejercicios 2
MATEO ALEJANDRO PERUGACHI PADILLA
Aún no hay calificaciones
Oraciones Contra El Aborto
Documento4 páginas
Oraciones Contra El Aborto
Ricy
Aún no hay calificaciones
12 Inspiradoras Oraciones para Rezar Al Espíritu Santo
Documento7 páginas
12 Inspiradoras Oraciones para Rezar Al Espíritu Santo
Ricy
Aún no hay calificaciones
Indulgencia Plenaria
Documento22 páginas
Indulgencia Plenaria
Ricy
Aún no hay calificaciones
Oracion Evangelium Vitae Juan Pablo II
Documento1 página
Oracion Evangelium Vitae Juan Pablo II
Ricy
Aún no hay calificaciones
Copia de Jeremias20BibliaJerusalen
Documento1 página
Copia de Jeremias20BibliaJerusalen
Ricy
Aún no hay calificaciones
Una Serie Sobre Dietrich Bonhoeffer
Documento26 páginas
Una Serie Sobre Dietrich Bonhoeffer
Ricy
Aún no hay calificaciones
Credo Del Pueblo de Dios
Documento7 páginas
Credo Del Pueblo de Dios
Ricy
Aún no hay calificaciones
4-5 Aprendizaje Reforzado
Documento11 páginas
4-5 Aprendizaje Reforzado
Ricy
Aún no hay calificaciones
Así Es Como Dios Te ama-TeresaDeCalcuta
Documento6 páginas
Así Es Como Dios Te ama-TeresaDeCalcuta
Ricy
Aún no hay calificaciones
CyberProof Smarter SOC WP Spanish 2107
Documento17 páginas
CyberProof Smarter SOC WP Spanish 2107
Ricy
Aún no hay calificaciones
Zenda Chema Alonso
Documento29 páginas
Zenda Chema Alonso
Ricy
Aún no hay calificaciones
400 Comandos
Documento19 páginas
400 Comandos
Ricy
Aún no hay calificaciones
10 Consejos para Un Diseño Web de Éxito
Documento1 página
10 Consejos para Un Diseño Web de Éxito
Ricy
Aún no hay calificaciones
15 Programas para Mezclar Música
Documento21 páginas
15 Programas para Mezclar Música
Ricy
Aún no hay calificaciones
4-3 Principal Component Analysis
Documento17 páginas
4-3 Principal Component Analysis
Ricy
Aún no hay calificaciones
4-6 MDP
Documento13 páginas
4-6 MDP
Ricy
Aún no hay calificaciones
4.2.6 Herramientas Que Se Pueden Usar para La Rendicion de Cuentas
Documento6 páginas
4.2.6 Herramientas Que Se Pueden Usar para La Rendicion de Cuentas
Ricy
Aún no hay calificaciones
Autoevaluacion Etica de IA para Actores Del Ecosistema Emprendedor Guia de Aplicacion
Documento72 páginas
Autoevaluacion Etica de IA para Actores Del Ecosistema Emprendedor Guia de Aplicacion
Ricy
Aún no hay calificaciones
Recomendaciones para Director de Proyecto
Documento2 páginas
Recomendaciones para Director de Proyecto
Ricy
Aún no hay calificaciones
4.2.5 Ejemplos - de - Monitoreo - de - Sistemas - de - IA - Desde - Gobierno
Documento1 página
4.2.5 Ejemplos - de - Monitoreo - de - Sistemas - de - IA - Desde - Gobierno
Ricy
Aún no hay calificaciones
Lista de Verificación de IA Robusta y Responsable
Documento6 páginas
Lista de Verificación de IA Robusta y Responsable
Ricy
Aún no hay calificaciones
Desensamblador Idapro y Oda
Documento3 páginas
Desensamblador Idapro y Oda
Ricy
Aún no hay calificaciones
Plantilla para Taller de Factibilidad
Documento26 páginas
Plantilla para Taller de Factibilidad
Ricy
Aún no hay calificaciones
Anexo1 Ficha de Diseño y Factibilidad
Documento11 páginas
Anexo1 Ficha de Diseño y Factibilidad
Ricy
Aún no hay calificaciones
Auditoria Algoritmica para Sistemas de Toma o Soporte de Decisiones
Documento27 páginas
Auditoria Algoritmica para Sistemas de Toma o Soporte de Decisiones
Ricy
Aún no hay calificaciones
Informe Técnico Forense
Documento2 páginas
Informe Técnico Forense
Ricy
Aún no hay calificaciones
Lista de Verificación para El Director Del Proyecto
Documento2 páginas
Lista de Verificación para El Director Del Proyecto
Ricy
Aún no hay calificaciones
Práctica para Medicina Humana #01
Documento2 páginas
Práctica para Medicina Humana #01
Ydelza Castro
Aún no hay calificaciones
Pro II Ejemplos 2
Documento98 páginas
Pro II Ejemplos 2
Jose Miguel Lopez Delgado
Aún no hay calificaciones
Actividad Entregable 2 Matematica Aplicadaaaa
Documento7 páginas
Actividad Entregable 2 Matematica Aplicadaaaa
Rïčhäřđ Bëřňäł
Aún no hay calificaciones
4.-ESPECIFICACIONES TECNICAS Pueblo Libre
Documento21 páginas
4.-ESPECIFICACIONES TECNICAS Pueblo Libre
Eliot Carhua
Aún no hay calificaciones
Cuestionario OPE Parte 3
Documento6 páginas
Cuestionario OPE Parte 3
dianaitah
Aún no hay calificaciones
Reparar Arranque 2
Documento3 páginas
Reparar Arranque 2
Gabo Enrique
Aún no hay calificaciones
U1-A2 Cálculo Diferencial
Documento4 páginas
U1-A2 Cálculo Diferencial
Lizbeth Patiño Bayona
Aún no hay calificaciones
1 t2 Maquinas Termicas 18-19 PDF
Documento25 páginas
1 t2 Maquinas Termicas 18-19 PDF
Rubén Barroso Blazqez
Aún no hay calificaciones
Estudio Hidrologico Canal Quilish
Documento25 páginas
Estudio Hidrologico Canal Quilish
daniel
Aún no hay calificaciones
Extracción de Colorantes
Documento10 páginas
Extracción de Colorantes
norma
0% (1)
4BV1 Optoacopladores
Documento27 páginas
4BV1 Optoacopladores
Martin Higuera Peña
Aún no hay calificaciones
Ecuaciones Incompletas de 2do Grado
Documento4 páginas
Ecuaciones Incompletas de 2do Grado
Rosa Amel Elfierro
Aún no hay calificaciones
Simulacro Vias 1
Documento16 páginas
Simulacro Vias 1
Jhonatan Ramirez
Aún no hay calificaciones
FIS120 Control1 PDF
Documento6 páginas
FIS120 Control1 PDF
Guillermo Córdova Castillo
Aún no hay calificaciones
Primera Actividad (10%)
Documento2 páginas
Primera Actividad (10%)
Ariannysmon
Aún no hay calificaciones
Documents - Tips Problemas Capitulo 18 Wayne Tomasi
Documento7 páginas
Documents - Tips Problemas Capitulo 18 Wayne Tomasi
Fajardo Andrei
Aún no hay calificaciones
Nia 530
Documento10 páginas
Nia 530
PABLO ROBERTO RUIZ MALDONADO
Aún no hay calificaciones
Informe - Practica 1 - Capacidad Amortiguadora de Soluciones Buffer y Valoración Ácido Base de Un Aminoácido
Documento7 páginas
Informe - Practica 1 - Capacidad Amortiguadora de Soluciones Buffer y Valoración Ácido Base de Un Aminoácido
jeferort4912
Aún no hay calificaciones
Clase 05 Mirror, Attach, Scale, Stretch
Documento8 páginas
Clase 05 Mirror, Attach, Scale, Stretch
Marlon Francisco Rincon Reyes
Aún no hay calificaciones
Vocabulario Geográfico
Documento10 páginas
Vocabulario Geográfico
lucia castel Ruz
Aún no hay calificaciones
Geometría 5to Año
Documento97 páginas
Geometría 5to Año
JoEl Perez
0% (1)
Caracteristicas de La Instrumentacion
Documento11 páginas
Caracteristicas de La Instrumentacion
Jael Carrasco
Aún no hay calificaciones
Funciones de Uso Práctico
Documento14 páginas
Funciones de Uso Práctico
alejandro cuadros
Aún no hay calificaciones
Teoria de Colas
Documento12 páginas
Teoria de Colas
Fabian andres Gelvez villamizar
Aún no hay calificaciones