¡Te damos la bienvenida a Scribd!

4-6 MDP

Cargado por

0% encontró este documento útil (0 votos)

8 vistas13 páginas

Este documento describe los procesos de decisión de Markov finitos (MDP). Un MDP se define por un conjunto de estados posibles, un conjunto de acciones posibles, una función de recompensa esperada y una función de transición de probabilidad. La propiedad de Markov establece que el estado actual contiene toda la información necesaria sobre los estados futuros. El objetivo es maximizar el retorno esperado, que puede ser finito para tareas episódicas o infinito para tareas continuas. Las políticas mapean estados a acciones probabilísticas, y las funciones de

Descripción original:

Título original

4-6_MDP

Derechos de autor

Formatos disponibles

PDF, TXT o lea en línea desde Scribd

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Denunciar este documento

Copyright:

Formatos disponibles

Descargue como PDF, TXT o lea en línea desde Scribd

Marcar por contenido inapropiado

0% encontró este documento útil (0 votos)

8 vistas13 páginas

4-6 MDP

Cargado por

Ricy

Copyright:

Formatos disponibles

Descargue como PDF, TXT o lea en línea desde Scribd

Marcar por contenido inapropiado

Saltar a página

Está en la página 1de 13

Buscar dentro del documento

Finite Markov

Decision Processes
Markov Decision Processes (MDP)
• Formulación matemática
definida por: Agente
S, A, R, ℙ, γ
• S, conjunto de posibles estados st rt rt+1 st+1 at
• A, conjunto de posibles acciones
• R, recompensa esperada dada s𝑡 , a𝑡
• ℙ, función de transición de probabilidad Entorno
• γ, factor de descuento

Propiedad de Markov: El estado presente caracteriza completamente los valores futuros.

Finite Markov Decision Processes
• En cada instante de tiempo 𝑡, el agente recibe una
representación de acuerdo al estado en el que se
encuentra dentro de su entorno, S𝑡 ∈ S , y en
base a esta, selecciona una acción A𝑡 ∈ A 𝑠 .
• Un instante de tiempo después, consecuencia de
su acción, recibe una recompensa R 𝑡+1 ∈ R ⊂ ℝ,
encontrando por si mismo un nuevo estado S𝑡+1 .

S0 , A0 → R1 , S1 , A1 → R 2 , S2 , A2
Finite Markov Decision Processes
• R t y St tienen distribuciones de probabilidad discretas
bien definidas, que dependen solo del estado anterior
y la acción anterior.
p ∶ S × R × S × A → 0,1 (Dinámica del MDP)

p s ′ , r | s, a ≐ Pr St = s ′ , R t = r | St−1 = s, At−1 = 𝑎

෍ ෍ p s ′ , r | s, a = 1, ∀s ∈ S, a ∈ A(s)
s′ ∈S r∈R

Finite Markov Decision Processes

Markov Decision Processes (MDP)
• Formulación matemática
definida por: Agente
S, A, R, ℙ, γ
• S, conjunto de posibles estados st rt rt+1 st+1 at
• A, conjunto de posibles acciones
• R, recompensa esperada dada s𝑡 , a𝑡
• ℙ, función de transición de probabilidad Entorno
• γ, factor de descuento

Propiedad de Markov: El estado presente caracteriza completamente los valores futuros.

Finite Markov Decision Processes
Returns and Episodes
El retorno esperado Gt es definido como la suma de
todas las recompensas en cada uno de los instantes
• Gt ≐ R t+1 + R t+2 + R t+3 + ⋯ + R T
• T es el instante final de un episodio
• Episodio → Interacción completa entre el agente y
su entorno.
El objetivo es maximizar el retorno esperado.
Finite Markov Decision Processes
Episodic Task
• Instante final T definido. Gt ≐ R t+1 + R t+2 + R t+3 + ⋯ + R T
• Cada episodio termina en un
estado final determinado.

Continuing Task
• T→∞
• La interacción no se puede Gt ≐ R t+1 + γR t+2 + γ2 R t+3 + ⋯
∞
dividir en episodios.
• Ongoing process-control task Gt ≐ ෍ γk R t+k+1
• Discounted Rewards (0 < 𝛾 < 1) k=0
• Gt limitado y recursivo Gt = R t+1 + γGt+1
Finite Markov Decision Processes Forma General, γ = 1 y T ≠ ∞
Ejemplo: Cartpole Episodic Task
• Episodios → Cada intento de
balancear el péndulo.
• Recompensa → +1 mientras
el péndulo este equilibrado.
• Retorno → Cantidad de
timesteps hasta antes de caer.

Aprendizaje Reforzado
Ejemplo: Cartpole Continuing Task
• Recompensa → −1 cada vez
que el péndulo caiga y 0 cada
vez que el péndulo no caiga.
• Retorno → Relacionado con
−γk , donde k es la cantidad
de timesteps hasta antes de
que el péndulo caiga.
Aprendizaje Reforzado
Policies
Es una función que en base a una probabilidad,
específica que acción tomar en cada uno de los estados.

π a|s → probabilidad de seleccionar la acción 'a' dado el estado 's'

El objetivo es encontrar π∗ (s|a), tal que maximice el

retorno esperado.

Finite Markov Decision Processes

Value Functions
Evaluar formas determinadas de actuar (policies).
Value Function
Que tan bueno es para el agente el estado s.
∞
𝑣𝜋 s ≐ 𝔼𝜋 k=0 γk R t+k+1 St = s
σ
Action-value Function
Que tan bueno es para el agente realizar la acción a estando en el estado s.
𝑞𝜋 s, a ≐ 𝔼𝜋 σ∞
k=0 γk
R t+k+1 St = s, At = a
Finite Markov Decision Processes

También podría gustarte

RLDM T1 PDF
Documento3 páginas
RLDM T1 PDF
Marie Daniela Torres Garnica
Aún no hay calificaciones
IA Clase14
Documento55 páginas
IA Clase14
Yohana Gutarra Urbina
Aún no hay calificaciones
2.función de Transferencia 2022 v2
Documento41 páginas
2.función de Transferencia 2022 v2
victor
Aún no hay calificaciones
Diseño Por Root Locus
Documento10 páginas
Diseño Por Root Locus
Juan David Carrillo
Aún no hay calificaciones
3 - Análisis Cuantitativo y Cualitativo de Los Sistemas de Control
Documento45 páginas
3 - Análisis Cuantitativo y Cualitativo de Los Sistemas de Control
victor alfonso rodriguez madrid
Aún no hay calificaciones
Tarea 1 - Daniel Antonio Caisedo
Documento13 páginas
Tarea 1 - Daniel Antonio Caisedo
Ronal Martinez
Aún no hay calificaciones
Tarea 2 - Análisis de LGR y Diseño de Compensador - MarcosNieves
Documento11 páginas
Tarea 2 - Análisis de LGR y Diseño de Compensador - MarcosNieves
marcos andres nieves gullo
0% (1)
LAB2 Compensador Adelanto
Documento5 páginas
LAB2 Compensador Adelanto
EdwinAlbertoHernandezQuirama
Aún no hay calificaciones
Clase Lugar de Raices
Documento8 páginas
Clase Lugar de Raices
Xiime Walburg
Aún no hay calificaciones
Diseño de Controladores Mediante El Lugar de Las Raíces
Documento24 páginas
Diseño de Controladores Mediante El Lugar de Las Raíces
takeo
Aún no hay calificaciones
Robotica 2018 06
Documento26 páginas
Robotica 2018 06
Ronald Cordero
Aún no hay calificaciones
2.función de Transferencia 2022
Documento33 páginas
2.función de Transferencia 2022
Bernardo Escorcia
Aún no hay calificaciones
Aprendizaje Por Refuerzo Tradicional y Profundo (Reinforcement Learning)
Documento13 páginas
Aprendizaje Por Refuerzo Tradicional y Profundo (Reinforcement Learning)
francisco reales
Aún no hay calificaciones
Propiedades A Largo Plazo - Cadenas de Markov
Documento5 páginas
Propiedades A Largo Plazo - Cadenas de Markov
Izak Rg
Aún no hay calificaciones
Máxima Verosimilitud
Documento22 páginas
Máxima Verosimilitud
José Daniel Colque Huere
Aún no hay calificaciones
C06-Sistemas Realimentados
Documento12 páginas
C06-Sistemas Realimentados
Giovanni Aquiño
Aún no hay calificaciones
Nota Sobre Método Kuhn Tucker
Documento5 páginas
Nota Sobre Método Kuhn Tucker
Marwan Valenzuela Habib
Aún no hay calificaciones
Tarea Julio 2019 - Guncay - Morocho
Documento7 páginas
Tarea Julio 2019 - Guncay - Morocho
Geovanny Nugra
Aún no hay calificaciones
Limites 2 Al Infinito - Calculo
Documento23 páginas
Limites 2 Al Infinito - Calculo
Nacho Antecao
Aún no hay calificaciones
Tarea 1
Documento10 páginas
Tarea 1
alexis
Aún no hay calificaciones
Charla Kalman
Documento8 páginas
Charla Kalman
Diego Diaz
Aún no hay calificaciones
Tema9 - Lugar - Raices
Documento103 páginas
Tema9 - Lugar - Raices
TGA
Aún no hay calificaciones
Tarea 1 - Ewis Romero
Documento25 páginas
Tarea 1 - Ewis Romero
Edwin Romero
Aún no hay calificaciones
2020 - Criterio Routh-Hurwitz PDF
Documento14 páginas
2020 - Criterio Routh-Hurwitz PDF
JuanAldairRiveraDueñas
Aún no hay calificaciones
Monografia DERIVADAS
Documento14 páginas
Monografia DERIVADAS
Alexia Poma
Aún no hay calificaciones
Adelanto Retraso
Documento8 páginas
Adelanto Retraso
Anonymous EMr49Mz
Aún no hay calificaciones
Verano. 6
Documento27 páginas
Verano. 6
Damari Salinas Padilla
Aún no hay calificaciones
Clase 06 - La Derivada
Documento19 páginas
Clase 06 - La Derivada
ANTONNY BILL CONSTANTINO FACUNDO
Aún no hay calificaciones
Diseño Por LGR
Documento19 páginas
Diseño Por LGR
jose guachalla
Aún no hay calificaciones
Cadenas de Markov
Documento15 páginas
Cadenas de Markov
Henri Thonon
Aún no hay calificaciones
Monitorias 3 y 4 Refuerzo de Dericadas
Documento21 páginas
Monitorias 3 y 4 Refuerzo de Dericadas
Saray
Aún no hay calificaciones
Criterio de La Raíz
Documento9 páginas
Criterio de La Raíz
Alexa
Aún no hay calificaciones
Control Analogo Tarea 2 - Análisis
Documento14 páginas
Control Analogo Tarea 2 - Análisis
kristian
Aún no hay calificaciones
Complejidad Computacional Estructura de Datos
Documento38 páginas
Complejidad Computacional Estructura de Datos
José Nicolás Jorquera Herrera
Aún no hay calificaciones
4 - Transformada de Laplace y Funciòn de Transferencia
Documento14 páginas
4 - Transformada de Laplace y Funciòn de Transferencia
Esequiel Perez
Aún no hay calificaciones
Tema4.2 R
Documento4 páginas
Tema4.2 R
Eva Martin
Aún no hay calificaciones
16 FX Generadoras2
Documento19 páginas
16 FX Generadoras2
州モ乚乚ノ下乚凵ロ凵ら
Aún no hay calificaciones
Análisis de Sistemas Dinámico Lineales
Documento23 páginas
Análisis de Sistemas Dinámico Lineales
Horacio Britz
Aún no hay calificaciones
Control Analogo
Documento83 páginas
Control Analogo
esneyder quevedo
Aún no hay calificaciones
UNIDAD 4 STD MDPs Sem1 2020
Documento61 páginas
UNIDAD 4 STD MDPs Sem1 2020
Tyrant
Aún no hay calificaciones
Cap. 12 CW PARTE I
Documento38 páginas
Cap. 12 CW PARTE I
Juancito perez galan
Aún no hay calificaciones
Apuntes Cálculo I 2p23 Clase 1 Primer Parcial 15 de Abril CCC
Documento5 páginas
Apuntes Cálculo I 2p23 Clase 1 Primer Parcial 15 de Abril CCC
lunel
Aún no hay calificaciones
Actividad 1 Control Análogo UNAD
Documento16 páginas
Actividad 1 Control Análogo UNAD
erick DHoz
100% (1)
Lab Control8
Documento11 páginas
Lab Control8
joel jacinto
Aún no hay calificaciones
Compensadores Adelanto y Atraso
Documento57 páginas
Compensadores Adelanto y Atraso
CARLOS ANDRES BEINGOLEA RODRIGUEZ
Aún no hay calificaciones
Caracteristicas de La RT
Documento3 páginas
Caracteristicas de La RT
fabian gomez
Aún no hay calificaciones
Bibliografía Controladores-Estabilidad - v4
Documento28 páginas
Bibliografía Controladores-Estabilidad - v4
Laura Coderch
Aún no hay calificaciones
Calibración Dinámica de Un Termómetro de Mercurio
Documento6 páginas
Calibración Dinámica de Un Termómetro de Mercurio
Edwin Gallardo
Aún no hay calificaciones
Especificaciones Temporales Control
Documento14 páginas
Especificaciones Temporales Control
rodrigo
Aún no hay calificaciones
Diseño de Controladores en Dominio Frecuencial
Documento8 páginas
Diseño de Controladores en Dominio Frecuencial
marlius
Aún no hay calificaciones
Ingeniería de Control: Tema 1b. Análisis de La Respuesta en Frecuencia
Documento117 páginas
Ingeniería de Control: Tema 1b. Análisis de La Respuesta en Frecuencia
santiago pablo alberto
100% (1)
Informe Fisica MRUV
Documento8 páginas
Informe Fisica MRUV
DANIELA GERALDINE ZENTENO MEDINA
Aún no hay calificaciones
Unidad 1 Cadenas de Markov
Documento26 páginas
Unidad 1 Cadenas de Markov
Alessandro Peña
Aún no hay calificaciones
Fundamentos Matemáticos Microeconomía
Documento105 páginas
Fundamentos Matemáticos Microeconomía
Alvaro
Aún no hay calificaciones
Metodo Grafico Gabriel
Documento15 páginas
Metodo Grafico Gabriel
Carlos Perez
Aún no hay calificaciones
LIMITES Mi Parte Del Trabajo
Documento4 páginas
LIMITES Mi Parte Del Trabajo
Aron Cordova Lapeyre
Aún no hay calificaciones
Problema 1
Documento29 páginas
Problema 1
luay963fans
Aún no hay calificaciones
Ejercicio 3 - 8
Documento11 páginas
Ejercicio 3 - 8
OttoHinder
Aún no hay calificaciones
Física teórica. Mecánica
De Everand
Física teórica. Mecánica
L. D. Landau
Calificación: 4 de 5 estrellas
4/5 (34)
Ejercicios de Logaritmos y Exponenciales
De Everand
Ejercicios de Logaritmos y Exponenciales
Simone Malacrida
Aún no hay calificaciones
Oraciones Contra El Aborto
Documento4 páginas
Oraciones Contra El Aborto
Ricy
Aún no hay calificaciones
12 Inspiradoras Oraciones para Rezar Al Espíritu Santo
Documento7 páginas
12 Inspiradoras Oraciones para Rezar Al Espíritu Santo
Ricy
Aún no hay calificaciones
Indulgencia Plenaria
Documento22 páginas
Indulgencia Plenaria
Ricy
Aún no hay calificaciones
Oracion Evangelium Vitae Juan Pablo II
Documento1 página
Oracion Evangelium Vitae Juan Pablo II
Ricy
Aún no hay calificaciones
Copia de Jeremias20BibliaJerusalen
Documento1 página
Copia de Jeremias20BibliaJerusalen
Ricy
Aún no hay calificaciones
Una Serie Sobre Dietrich Bonhoeffer
Documento26 páginas
Una Serie Sobre Dietrich Bonhoeffer
Ricy
Aún no hay calificaciones
Credo Del Pueblo de Dios
Documento7 páginas
Credo Del Pueblo de Dios
Ricy
Aún no hay calificaciones
4-5 Aprendizaje Reforzado
Documento11 páginas
4-5 Aprendizaje Reforzado
Ricy
Aún no hay calificaciones
Así Es Como Dios Te ama-TeresaDeCalcuta
Documento6 páginas
Así Es Como Dios Te ama-TeresaDeCalcuta
Ricy
Aún no hay calificaciones
CyberProof Smarter SOC WP Spanish 2107
Documento17 páginas
CyberProof Smarter SOC WP Spanish 2107
Ricy
Aún no hay calificaciones
Zenda Chema Alonso
Documento29 páginas
Zenda Chema Alonso
Ricy
Aún no hay calificaciones
400 Comandos
Documento19 páginas
400 Comandos
Ricy
Aún no hay calificaciones
10 Consejos para Un Diseño Web de Éxito
Documento1 página
10 Consejos para Un Diseño Web de Éxito
Ricy
Aún no hay calificaciones
15 Programas para Mezclar Música
Documento21 páginas
15 Programas para Mezclar Música
Ricy
Aún no hay calificaciones
4-3 Principal Component Analysis
Documento17 páginas
4-3 Principal Component Analysis
Ricy
Aún no hay calificaciones
4-9 TD Learning
Documento13 páginas
4-9 TD Learning
Ricy
Aún no hay calificaciones
4.2.6 Herramientas Que Se Pueden Usar para La Rendicion de Cuentas
Documento6 páginas
4.2.6 Herramientas Que Se Pueden Usar para La Rendicion de Cuentas
Ricy
Aún no hay calificaciones
Autoevaluacion Etica de IA para Actores Del Ecosistema Emprendedor Guia de Aplicacion
Documento72 páginas
Autoevaluacion Etica de IA para Actores Del Ecosistema Emprendedor Guia de Aplicacion
Ricy
Aún no hay calificaciones
Recomendaciones para Director de Proyecto
Documento2 páginas
Recomendaciones para Director de Proyecto
Ricy
Aún no hay calificaciones
4.2.5 Ejemplos - de - Monitoreo - de - Sistemas - de - IA - Desde - Gobierno
Documento1 página
4.2.5 Ejemplos - de - Monitoreo - de - Sistemas - de - IA - Desde - Gobierno
Ricy
Aún no hay calificaciones
Lista de Verificación de IA Robusta y Responsable
Documento6 páginas
Lista de Verificación de IA Robusta y Responsable
Ricy
Aún no hay calificaciones
Desensamblador Idapro y Oda
Documento3 páginas
Desensamblador Idapro y Oda
Ricy
Aún no hay calificaciones
Plantilla para Taller de Factibilidad
Documento26 páginas
Plantilla para Taller de Factibilidad
Ricy
Aún no hay calificaciones
Anexo1 Ficha de Diseño y Factibilidad
Documento11 páginas
Anexo1 Ficha de Diseño y Factibilidad
Ricy
Aún no hay calificaciones
Auditoria Algoritmica para Sistemas de Toma o Soporte de Decisiones
Documento27 páginas
Auditoria Algoritmica para Sistemas de Toma o Soporte de Decisiones
Ricy
Aún no hay calificaciones
Informe Técnico Forense
Documento2 páginas
Informe Técnico Forense
Ricy
Aún no hay calificaciones
Lista de Verificación para El Director Del Proyecto
Documento2 páginas
Lista de Verificación para El Director Del Proyecto
Ricy
Aún no hay calificaciones
Razones, Proporciones y Porcentajes
Documento24 páginas
Razones, Proporciones y Porcentajes
Rosaury Castro De Luna
Aún no hay calificaciones
Mega Subasta Resuelta
Documento36 páginas
Mega Subasta Resuelta
miguel
Aún no hay calificaciones
Actividad 4 Ejercicios Organización y Análisis de Datos
Documento3 páginas
Actividad 4 Ejercicios Organización y Análisis de Datos
Cristian Cely
Aún no hay calificaciones
Tema 3 Bloque I Bioenergetica
Documento11 páginas
Tema 3 Bloque I Bioenergetica
Pamelitha Huayanca Carbajal
Aún no hay calificaciones
Catalogue
Documento22 páginas
Catalogue
Jaime Martinez
Aún no hay calificaciones
Actividad 1 Evidencia 2 Taller 1.2
Documento3 páginas
Actividad 1 Evidencia 2 Taller 1.2
Gustavo Cabulla
Aún no hay calificaciones
Sesión 5
Documento19 páginas
Sesión 5
Anghelly Miranda
Aún no hay calificaciones
So2 Ca
Documento10 páginas
So2 Ca
supervisorlab iha
Aún no hay calificaciones
Laboratorio 13-14
Documento7 páginas
Laboratorio 13-14
MARCO GABRIEL MALDONADO GUTIERREZ
Aún no hay calificaciones
Resistencia Ii
Documento13 páginas
Resistencia Ii
Maik A Secas
0% (1)
Choque y Vilca. Ensilaje de Pastos Festuca..
Documento8 páginas
Choque y Vilca. Ensilaje de Pastos Festuca..
hugode
Aún no hay calificaciones
24 de Marzo Del 2020 Cuadro de Doble Entrada
Documento23 páginas
24 de Marzo Del 2020 Cuadro de Doble Entrada
sheila perez
Aún no hay calificaciones
Ponencia X Ribiecol Nelson Castillo
Documento15 páginas
Ponencia X Ribiecol Nelson Castillo
Nelson Castillo Alba
Aún no hay calificaciones
Curso de Javascript PDF
Documento31 páginas
Curso de Javascript PDF
Francisco Javier
Aún no hay calificaciones
Ejercicios Unidad 1 Matematica Financiera
Documento64 páginas
Ejercicios Unidad 1 Matematica Financiera
Claudia Enriquez
Aún no hay calificaciones
E.4 - 2do-01-Funcion Lineal
Documento4 páginas
E.4 - 2do-01-Funcion Lineal
Arturo Centurion
Aún no hay calificaciones
ALGEBRA 9 - Taller 3 - Ec Prim Gra Dos Incognitas
Documento3 páginas
ALGEBRA 9 - Taller 3 - Ec Prim Gra Dos Incognitas
paola giraldo
Aún no hay calificaciones
Autocad 2D 2019
Documento4 páginas
Autocad 2D 2019
GROUP GUEVARA
0% (2)
Taller Semejanza de Triángulos
Documento2 páginas
Taller Semejanza de Triángulos
Claudia Patricia Perez Conde
Aún no hay calificaciones
Semana 5 Caso Practico Ratios Financieros
Documento6 páginas
Semana 5 Caso Practico Ratios Financieros
Ana Tatiana Purizaca Sanchez
Aún no hay calificaciones
Efsrt Minas Proyecto II
Documento18 páginas
Efsrt Minas Proyecto II
Julio Enrique Laguna Espinoza
Aún no hay calificaciones
Tarea 1. Máquinas Térmicas 2121
Documento5 páginas
Tarea 1. Máquinas Térmicas 2121
WILSON EFRAIN GAVILANEZ AZOGUE
Aún no hay calificaciones
Equilibrio Electrolítico, Balance Hídrico Y Equilibrio Ácido-Base de La Sangre
Documento3 páginas
Equilibrio Electrolítico, Balance Hídrico Y Equilibrio Ácido-Base de La Sangre
Aracely Rosa Ruiz Mandujano
Aún no hay calificaciones
Taller 2 - Estadistica (1) 5
Documento4 páginas
Taller 2 - Estadistica (1) 5
Mayolly Tocora vargas
Aún no hay calificaciones
Topografía I: Facultad de Ingeniería
Documento41 páginas
Topografía I: Facultad de Ingeniería
LUIGGI ALBERT CORDERO ACUÑA
Aún no hay calificaciones
Metabolismo Cambell
Documento5 páginas
Metabolismo Cambell
Nelson Nel
100% (2)
Medidas y Proporciones de Una Cara
Documento9 páginas
Medidas y Proporciones de Una Cara
MARIA DE LOS SUAREZ
Aún no hay calificaciones
Determinacion Del Calor de Neutralizacion
Documento31 páginas
Determinacion Del Calor de Neutralizacion
Miguel Antony Zumaeta Gonzales
Aún no hay calificaciones
TP1 - Linealización de Sistemas No Lineales
Documento13 páginas
TP1 - Linealización de Sistemas No Lineales
Naufrago Willies
Aún no hay calificaciones
Matrix Metodo de 2 Puntos
Documento1 página
Matrix Metodo de 2 Puntos
betto
100% (1)