¡Te damos la bienvenida a Scribd!

Aprendizaje Por Refuerzo Tradicional y Profundo (Reinforcement Learning)

Cargado por

0% encontró este documento útil (0 votos)

15 vistas13 páginas

Se explican los conceptos del aprendizaje por refiuerzo clásico (Q-table) y como llevan al aprendizaje por refuerzo profundo (Deep Q-network) [para ver las animaciones descargar el PPTX]

Título original

Aprendizaje por refuerzo tradicional y profundo (Reinforcement Learning)

Derechos de autor

Formatos disponibles

PPTX, PDF, TXT o lea en línea desde Scribd

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Denunciar este documento

Se explican los conceptos del aprendizaje por refiuerzo clásico (Q-table) y como llevan al aprendizaje por refuerzo profundo (Deep Q-network) [para ver las animaciones descargar el PPTX]

Copyright:

Formatos disponibles

Descargue como PPTX, PDF, TXT o lea en línea desde Scribd

Marcar por contenido inapropiado

0% encontró este documento útil (0 votos)

15 vistas13 páginas

Aprendizaje Por Refuerzo Tradicional y Profundo (Reinforcement Learning)

Cargado por

francisco reales

Se explican los conceptos del aprendizaje por refiuerzo clásico (Q-table) y como llevan al aprendizaje por refuerzo profundo (Deep Q-network) [para ver las animaciones descargar el PPTX]

Copyright:

Formatos disponibles

Descargue como PPTX, PDF, TXT o lea en línea desde Scribd

Marcar por contenido inapropiado

Saltar a página

Está en la página 1de 13

Buscar dentro del documento

Un tema interesante de DL

aplicado en visión es:

Deep Reinforcement Learning
Ya sabemos algo de DL pero nos falta
entonces los fundamentos de RL
Reinforcement Learning:
Aprendizaje por refuerzo
Recompensa positiva Recompensa negativa
Modelo de Interacción Agente y Environment
Estado = Posición->[x,y], cercanía a un enemigo
Recompensa=-100 (murió Mario)
Agente interactua con el Entorno
(Environment) a partir de acciones y recibe del
entorno un estado y una recompensa asociada
a la acción

IDEA: Encontrar las acciones que maximizan

[Arriba,derecha,izquierda]
la recompensa
Q Learning
Caso básico y poco escalable, útil para introducir al RL
Acción
Problema del agente en un campo minado
0 1 2
0 0,0

1 0,1

Estado
Podemos definir una tabla que
contenga la Calidad de tomar
2 0,2
una acción cuando estamos en
determinado estado (Q table)

0,3

0,4

• Si tuvieramos esta tabla, solo tendriamos que tomar las acciones con Q máximo (Politica óptima)
• Al principio el agente no tiene información de como funciona el entorno
Q Learning
• IDEA: Hallar la Q table de forma iterativa a partir de la interacción con
el entorno
La definimos y la llenamos de ceros

Al principio, como el agente no sabe

nada sombre el entorno, la acción
sería aleatoria

De esto se encarga el entorno

¿Y cómo hacemos para actualizar la tabla?

Q Learning
• Utilizaremos la ecuación de Bellman para actualizar los valores de Q
en cada iteración:
Que tanta importancia le
Valor actualizado Valor actual damos a la recompensa futura

Recompensa por haber Mejor recompensa

Pondera valor actual y el futuro tomado la acción a futura que podríamos
llegar a tener
Q Learning
• Hagamos un muy pequeño ejemplo de como se actualizaría
𝑄 ( 𝑠 , 𝑎 ) ← ( 1− 𝛼 ) 𝑄 ( 𝑠 , 𝑎 ) +𝛼 ¿
Primera decisión es Primera decisión es
aleatoria y fue abajo aleatoria y fue derecha

0 -90

R(0,1)=-100
Q(0,0,down)=(1-0.9)*0+ Q(0,0)=(1-0.9)*0+
0.9*[ 0+0.9*max(Q(1,0,right),Q(1,0,left), 0.9*[ -100+0.9*max(Q(1,0,right),Q(1,0,left),
Q(1,0,down),Q(1,0,up)) ] Q(1,0,down),Q(1,0,up)) ]
Dilema de la exploración y la explotación
• Al principio nuestro agente no conoce el entorno entonces las
acciones deben ser aleatorias

• Cuando ya ha interactuado lo suficiente puede empezar a decidir por

si mismo

IDEA: Explorar con probabilidad (epsilon) que empieza en 1 e ir

actualizandolo con epsilon_decay cada episodio:
epsilon*= epsilon_decay
Del RL tradicional al Deep RL

No es una
clasificación sino
una regresión!
Del RL tradicional al Deep RL
𝐿𝑜𝑠𝑠=∑ ( 𝑦 −𝑄 ( 𝑠 ,𝑎 ,𝑤 ) ) 𝑑𝑜𝑛𝑑𝑒 𝑦 =𝑅 ( 𝑠,𝑎 )+𝛾 max 𝑄 ( 𝑠 ,𝑎 ,𝑤 )
2 ′ ′
𝑖 𝑖 ′
𝑎
Observación
(4 frames) Estado Acción=Argmax(Q)

Características
convolucionales
Entrenamiento de la DQN
• La siguiente acción se determina
a partir de la salida que tenga
mayor Q
• Las experiencias pasadas son
guardadas en memoria para
después actualizar los pesos
• La función de costo es el error
cuadrático medio
• Las etiquetas están dadas por la
ecuación de Bellman
RL: De los juegos a la vida real
TikTok: escoger el próximo Notificaciones inteligentes: Robótica: Mover el robot para
contenido que maximice el tiempo Decidir si enviar o no una lograr el objetivo de interés
de reproducción notificación tal que maximice
la tasa de apertura
• Para más información:
https://www.udemy.com/course/deep-learning-para-computer-vision
-con-python-y-tensorflow/?referralCode
=9ECD5F991F5AFC754963

También podría gustarte

Organizacion Industrial - Teoria de La Empresa (Solucionario) PDF
Documento6 páginas
Organizacion Industrial - Teoria de La Empresa (Solucionario) PDF
RAMOS CORREA PAOLA GERALDINE
Aún no hay calificaciones
El Mandato de Berlín
Documento1 página
El Mandato de Berlín
Lokhito Bilyzhito Bandido Gronezhito
Aún no hay calificaciones
4-6 MDP
Documento13 páginas
4-6 MDP
Ricy
Aún no hay calificaciones
Energía Solucionario
Documento54 páginas
Energía Solucionario
Gabriel Gamarra Limay
Aún no hay calificaciones
Adelanto Retraso
Documento8 páginas
Adelanto Retraso
Anonymous EMr49Mz
Aún no hay calificaciones
Resumenes Machine Learning 4
Documento2 páginas
Resumenes Machine Learning 4
saradt.clase
Aún no hay calificaciones
Clase Reinforcement Learning 2023
Documento27 páginas
Clase Reinforcement Learning 2023
Juan Pablo
Aún no hay calificaciones
Clase 4 - Q-Learning
Documento17 páginas
Clase 4 - Q-Learning
magonzalez
Aún no hay calificaciones
Semana 16.2
Documento26 páginas
Semana 16.2
Alejandro Diaz Calderon
Aún no hay calificaciones
689 Examen 25252BFinal - 25252BSOLUCI 252525C3 25252593N Y R 252525C3 2525259ABRICA
Documento7 páginas
689 Examen 25252BFinal - 25252BSOLUCI 252525C3 25252593N Y R 252525C3 2525259ABRICA
Liss Zavala
Aún no hay calificaciones
Trabajo Grupal
Documento13 páginas
Trabajo Grupal
Andreita Guzman
Aún no hay calificaciones
Marcoteoricoaprendizaje Qlearning
Documento10 páginas
Marcoteoricoaprendizaje Qlearning
Alejandro Estrada Padilla
Aún no hay calificaciones
Sistemas Inteligentes Clase 4-Ejercicios
Documento7 páginas
Sistemas Inteligentes Clase 4-Ejercicios
Gustavo Merino
Aún no hay calificaciones
S15 s15+-+Función+Logaritmo +Dominio+y+Rango +Gráfica+de+la+función+Logaritmo+
Documento22 páginas
S15 s15+-+Función+Logaritmo +Dominio+y+Rango +Gráfica+de+la+función+Logaritmo+
Rodrigoj
Aún no hay calificaciones
1.4 Opt - Sin.restricciones
Documento16 páginas
1.4 Opt - Sin.restricciones
Christopher Quinteros Espinoza
Aún no hay calificaciones
Complejidad Computacional Estructura de Datos
Documento38 páginas
Complejidad Computacional Estructura de Datos
José Nicolás Jorquera Herrera
Aún no hay calificaciones
Regresion Lineal Univariable
Documento16 páginas
Regresion Lineal Univariable
lina rojas
Aún no hay calificaciones
Tema 2 Derivadas 2020 I Trazado de Curvas Semana 6
Documento25 páginas
Tema 2 Derivadas 2020 I Trazado de Curvas Semana 6
rosita urbina
Aún no hay calificaciones
Ayudantia 5
Documento59 páginas
Ayudantia 5
Javiera Aranguiz Caroca
Aún no hay calificaciones
Ejercicios Resueltostos-Semana 3
Documento10 páginas
Ejercicios Resueltostos-Semana 3
ROMMEL AARON REYNAGA ALVARADO
Aún no hay calificaciones
ATD - Sesion 15-16 Supervised Models - NEW Format
Documento51 páginas
ATD - Sesion 15-16 Supervised Models - NEW Format
Tommy Vite
Aún no hay calificaciones
S06.s2 Razon de Cambio Instantanea
Documento17 páginas
S06.s2 Razon de Cambio Instantanea
Paul Meza perez
Aún no hay calificaciones
(ACDB2-35%) (SUP1) Actividad Suplementaria - Determine Máximos, Mínimos, Intervalos Creciente y Decrecientes en Problemas Verbales de La Vida Cotidiana - FUNDAMENTOS MATEMATICOS
Documento13 páginas
(ACDB2-35%) (SUP1) Actividad Suplementaria - Determine Máximos, Mínimos, Intervalos Creciente y Decrecientes en Problemas Verbales de La Vida Cotidiana - FUNDAMENTOS MATEMATICOS
messi10lover22
Aún no hay calificaciones
L3 P12
Documento4 páginas
L3 P12
Josué David Regalado López
Aún no hay calificaciones
S10. s1 - Criterio de La Segunda Derivada
Documento12 páginas
S10. s1 - Criterio de La Segunda Derivada
Pipito Fernandez
Aún no hay calificaciones
Apuntes Curso Ai Python
Documento7 páginas
Apuntes Curso Ai Python
samuel.boscan.18
Aún no hay calificaciones
Ejercicios Explicativos 9.5
Documento1 página
Ejercicios Explicativos 9.5
Keylin Zelaya
Aún no hay calificaciones
EXA-2021-2S-CÁLCULO VECTORIAL-8-2Parcial
Documento19 páginas
EXA-2021-2S-CÁLCULO VECTORIAL-8-2Parcial
Gerardo Rosero
Aún no hay calificaciones
Charla Kalman
Documento8 páginas
Charla Kalman
Diego Diaz
Aún no hay calificaciones
2.3 Programación Dinámica
Documento21 páginas
2.3 Programación Dinámica
Christopher Quinteros Espinoza
Aún no hay calificaciones
Ejercicio 3 - 8
Documento11 páginas
Ejercicio 3 - 8
OttoHinder
Aún no hay calificaciones
Modelo de Inversion IDO
Documento20 páginas
Modelo de Inversion IDO
Cecy Ramirez
Aún no hay calificaciones
Clase 06 Aprendizaje Por Refuerzo
Documento22 páginas
Clase 06 Aprendizaje Por Refuerzo
Yesica Lima Contreras
Aún no hay calificaciones
(ACDB2-35%) (SUP1) Actividad Suplementaria - Determine Máximos, Mínimos, Intervalos Creciente y Decrecientes en Problemas Verbales de La Vida Cotidiana - FUNDAMENTOS MATEMATICOS
Documento11 páginas
(ACDB2-35%) (SUP1) Actividad Suplementaria - Determine Máximos, Mínimos, Intervalos Creciente y Decrecientes en Problemas Verbales de La Vida Cotidiana - FUNDAMENTOS MATEMATICOS
katherynamay
100% (1)
Unidad II (1b) Regla Hebb - Nntool
Documento25 páginas
Unidad II (1b) Regla Hebb - Nntool
Tomás Andrés Madrid Rosales
Aún no hay calificaciones
s15.s1 Actualizado Análisis Estructural I
Documento24 páginas
s15.s1 Actualizado Análisis Estructural I
Cristhian Quispe Manrique
Aún no hay calificaciones
Todo Mate
Documento20 páginas
Todo Mate
messi10lover22
Aún no hay calificaciones
Cadenas de Markov
Documento4 páginas
Cadenas de Markov
Torrez Fuentes Johan I.
Aún no hay calificaciones
Control Analogo
Documento15 páginas
Control Analogo
bussiness
Aún no hay calificaciones
Clase 2 - Control en Matlab
Documento6 páginas
Clase 2 - Control en Matlab
Eric Mosvel
100% (1)
Tarea 3 - Diseñar Compensadores Según Respuesta en Frecuencia y Sintonización de Controladores.
Documento18 páginas
Tarea 3 - Diseñar Compensadores Según Respuesta en Frecuencia y Sintonización de Controladores.
Sneider Alvarez
100% (1)
Kalman
Documento37 páginas
Kalman
mauricio.gonzalez.genta
Aún no hay calificaciones
Guia de Laboratorio N°5 - Grupo 7
Documento11 páginas
Guia de Laboratorio N°5 - Grupo 7
Saul Champac
Aún no hay calificaciones
Tema 5
Documento26 páginas
Tema 5
Takeshi ST
Aún no hay calificaciones
A3 Cavp - Ca
Documento5 páginas
A3 Cavp - Ca
alewars
Aún no hay calificaciones
Fase5 TC Grupo 301405 15
Documento29 páginas
Fase5 TC Grupo 301405 15
JohanaGuzman
Aún no hay calificaciones
Módulo 2 - Multiplicador de Lagrange
Documento7 páginas
Módulo 2 - Multiplicador de Lagrange
Nico Ocin
Aún no hay calificaciones
Formulario - Etapa 2
Documento5 páginas
Formulario - Etapa 2
Monica
Aún no hay calificaciones
M2 Autoencoders 140921
Documento24 páginas
M2 Autoencoders 140921
Alex Romero Mendoza
Aún no hay calificaciones
Cap. 12 CW PARTE I
Documento38 páginas
Cap. 12 CW PARTE I
Juancito perez galan
Aún no hay calificaciones
Apuntes Calculo
Documento17 páginas
Apuntes Calculo
calamandro saez
Aún no hay calificaciones
Semana 10 Sesión 01 - Criterio de La Segunda Derivada
Documento16 páginas
Semana 10 Sesión 01 - Criterio de La Segunda Derivada
Karla Chunga Riverq
Aún no hay calificaciones
Reporte Practicas
Documento38 páginas
Reporte Practicas
Felipe Pipe VR
Aún no hay calificaciones
S07.s1 - Potencia FP Problemas
Documento17 páginas
S07.s1 - Potencia FP Problemas
Yeferson Chirinos Atachahua
Aún no hay calificaciones
Od Tem 01
Documento5 páginas
Od Tem 01
IgnacioDiezLacunza
Aún no hay calificaciones
Teorias - Capítulo 3 - 2020 Final
Documento31 páginas
Teorias - Capítulo 3 - 2020 Final
Erison Beltran
Aún no hay calificaciones
PD1 2022-1
Documento2 páginas
PD1 2022-1
JC Huamán
Aún no hay calificaciones
Plantilla para Trabajos - Grupo 5 (Semana 3)
Documento4 páginas
Plantilla para Trabajos - Grupo 5 (Semana 3)
ALBERT
Aún no hay calificaciones
Conceptos Básicos de Procesamiento de Imágenes
Documento31 páginas
Conceptos Básicos de Procesamiento de Imágenes
francisco reales
Aún no hay calificaciones
Machine Learning - de La Clasificación de Imágenes A La Detección de Objetos
Documento10 páginas
Machine Learning - de La Clasificación de Imágenes A La Detección de Objetos
francisco reales
Aún no hay calificaciones
Machine Learning Interpretable: GRAD-CAM
Documento7 páginas
Machine Learning Interpretable: GRAD-CAM
francisco reales
Aún no hay calificaciones
Machine Learning Estadístico
Documento3 páginas
Machine Learning Estadístico
francisco reales
Aún no hay calificaciones
De La Convolución Entre Imágenes y La Red Neuronal A La Red Neuronal Convolucional
Documento7 páginas
De La Convolución Entre Imágenes y La Red Neuronal A La Red Neuronal Convolucional
francisco reales
Aún no hay calificaciones
Convolución 2D Vs 1D
Documento2 páginas
Convolución 2D Vs 1D
francisco reales
Aún no hay calificaciones
Conceptos Básicos de Clasificación en Machine Learning
Documento8 páginas
Conceptos Básicos de Clasificación en Machine Learning
francisco reales
Aún no hay calificaciones
Clasificación de Violencia en Video Con La Red Neuronal Convolucional 3D
Documento6 páginas
Clasificación de Violencia en Video Con La Red Neuronal Convolucional 3D
francisco reales
Aún no hay calificaciones
Taller de Biomagnetismo Practico Taller de Biomagnetismo
Documento45 páginas
Taller de Biomagnetismo Practico Taller de Biomagnetismo
Jose Salazar
98% (40)
Que Es La Fotografia Estenopeica
Documento6 páginas
Que Es La Fotografia Estenopeica
Douglas Segovia P.
Aún no hay calificaciones
Dispo - Carreras 2023 Ultimo
Documento27 páginas
Dispo - Carreras 2023 Ultimo
Lucho Monzón
Aún no hay calificaciones
Practico Nº1
Documento20 páginas
Practico Nº1
Carlos Zabala Guzman
Aún no hay calificaciones
Condiciones Básicas 594 BUILDTEK. 01.03.23
Documento5 páginas
Condiciones Básicas 594 BUILDTEK. 01.03.23
Constanza Osorio
Aún no hay calificaciones
Triptico Verdana
Documento2 páginas
Triptico Verdana
GustavoCastilloRoque
Aún no hay calificaciones
Entrenos C07 2019 PDF
Documento20 páginas
Entrenos C07 2019 PDF
josetf88
Aún no hay calificaciones
Material Factores Afectan Desempeno Aceite Lubricante Contaminacion Operacion Combustible Agua Refrigerante Temperatura
Documento1 página
Material Factores Afectan Desempeno Aceite Lubricante Contaminacion Operacion Combustible Agua Refrigerante Temperatura
Yordy Ortiz Pari
Aún no hay calificaciones
Tema19 Arq. Actual
Documento102 páginas
Tema19 Arq. Actual
Wilder Nacho
Aún no hay calificaciones
Práctica 2 - Coeficiente de Expansión de Los Gases
Documento11 páginas
Práctica 2 - Coeficiente de Expansión de Los Gases
López Lozano Daniela Sofía
Aún no hay calificaciones
Numeros Complejos
Documento36 páginas
Numeros Complejos
x-menbeast
Aún no hay calificaciones
Universidad Tecnologica Indoamerica
Documento10 páginas
Universidad Tecnologica Indoamerica
Francisco Cevallos
Aún no hay calificaciones
Avance de Marco Teorico-1
Documento16 páginas
Avance de Marco Teorico-1
KEYLA FERNANDA CARRARA AGUILLON
Aún no hay calificaciones
Mi-Moment 20181127 185600
Documento1 página
Mi-Moment 20181127 185600
Mendez L David
Aún no hay calificaciones
Determinamos Una Alternativa de Solución Tecnológica para Combatir La Pandemia-Jabón Liquido-1ero
Documento9 páginas
Determinamos Una Alternativa de Solución Tecnológica para Combatir La Pandemia-Jabón Liquido-1ero
Gary Monrroy Puma
Aún no hay calificaciones
Tarea 3 - Diagramas de Actividad y Secuencia
Documento36 páginas
Tarea 3 - Diagramas de Actividad y Secuencia
geo.jhona
Aún no hay calificaciones
Impacto de La Agricultura Sobre La Biodiversidad
Documento16 páginas
Impacto de La Agricultura Sobre La Biodiversidad
Noemi Mora Vazquez
Aún no hay calificaciones
Métodos de Purificación Por Absorción
Documento3 páginas
Métodos de Purificación Por Absorción
Cristina Sanchez Contreras
Aún no hay calificaciones
Cuestionario de Inmunologia.
Documento4 páginas
Cuestionario de Inmunologia.
Liliana Velasquez
Aún no hay calificaciones
Mezclado Palamatic Es
Documento23 páginas
Mezclado Palamatic Es
Hector Manuel
Aún no hay calificaciones
Lab Ejercicio 15
Documento15 páginas
Lab Ejercicio 15
anon_233683362
Aún no hay calificaciones
Alternativa S
Documento5 páginas
Alternativa S
Roger Bruno Chino Leon
Aún no hay calificaciones
ANALISIS DE GUIAS DE PENSAMIENTO CRÍTICO Fanny
Documento6 páginas
ANALISIS DE GUIAS DE PENSAMIENTO CRÍTICO Fanny
Luz Adriana Ramirez Osorio
Aún no hay calificaciones
Formulaciones Merary
Documento26 páginas
Formulaciones Merary
katarinasantander
Aún no hay calificaciones
Etomidato PDF
Documento2 páginas
Etomidato PDF
Mark
Aún no hay calificaciones
Transferencia de Calor-Motores de Combustion Interna.
Documento20 páginas
Transferencia de Calor-Motores de Combustion Interna.
Julio Nuñez
33% (3)
Ejemplos de Formularios Control Almacen
Documento6 páginas
Ejemplos de Formularios Control Almacen
SG Sharline Eirl
Aún no hay calificaciones
Guion Bodas de Sangre - para Combinar
Documento12 páginas
Guion Bodas de Sangre - para Combinar
Klelia Jaimes Olortegui
Aún no hay calificaciones
Rayter ADGM-SD
Documento230 páginas
Rayter ADGM-SD
Alejandro Aldana Mendo
Aún no hay calificaciones