Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PROGRAMACION
PROGRAMACION
PROGRAMACION DINAMICA
Investigación Operativa II
Estudiantes:
Buergo Camacho Luis Sebastian
Monzón Pilco Daniel Marcelo
Ordóñez Alejandro Jhasir Noel
Seleme Trigo Monica Romina
Docente: Mgr. Ademar Marcelo Vargas Antezana
Grupo: 01
23 de noviembre de 2022
Cochabamba – Bolivia
INDICE
2 HISTORIA...................................................................................................................2
3 Introducción.................................................................................................................2
4 Características de la programación dinámica..............................................................2
5 Definiciones importantes:............................................................................................3
6 Métodos de solución:...................................................................................................3
6.1 El problema de la mochila...................................................................................3
6.2 Calculo de los Números de Fibonacci.................................................................4
6.3 Calculo de los coeficientes binomiales................................................................4
6.4 La subsecuencia común máxima:........................................................................5
6.5 El problema del camino de mínimo costo...........................................................5
6.6 Asignación de recursos........................................................................................6
7 Problema de ruta más corta resuelto mediante programación dinámica.....................6
8 RESUMEN..................................................................................................................9
9 Aplicación a Reinforcement Learning.........................................................................9
10 CONCLUSIÓN............................................................................................................9
USUARIO 1
PROGRAMACION DINAMICA
1 HISTORIA
USUARIO 2
Para que un problema pueda ser resuelto con la técnica de Programación Dinámica,
debe cumplir con ciertas características:
Naturaleza secuencial de las decisiones: El problema puede ser dividido en
etapas.
Cada etapa tiene un numero de estados asociados a ella.
La decisión ´optima de cada etapa depende solo del estado actual y no de las
decisiones anteriores.
La decisión tomada en una etapa determina cual será el estado de la etapa
siguiente.
4 Definiciones importantes:
5 Métodos de solución:
USUARIO 3
La mejor selección de elementos del conjunto Sk para una mochila de tamaño w se puede
definir en función de selecciones de elementos de Sk-‐1 para mochilas de menor
capacidad.
0, 1, 1, 2, 3, 5, 8, 13, 21…..
Es decir que:
Así sucesivamente, hasta el infinito. Por regla, la sucesión de Fibonacci se escribe así:
n = n-1 + n-2.
Este problema trata de descubrir los caminos mínimos de todas las parejas de nodos de un
un grafo con n nodos.
Se puede ver el camino mínimo entre el nodo 1 y el 3. Entre los tres caminos posibles
tenemos 1→3 con valor 20, 1→4→3 con valor 13+2=15 y, finalmente, 1→2→4→3 con
valor 3+8+2=13, siendo este último el de menor valor.
USUARIO 5
5.6 Asignación de recursos
Suponga que se desea seleccionar la ruta por carretera más corta entre dos ciudades. La
red que se muestra en la figura proporciona las posibles rutas entre la ciudad de inicio en
el nodo 1 y la ciudad de destino en el nodo 7
USUARIO 6
Para resolver el problema por PD, primero lo descomponemos en etapas como se indica
mediante las líneas de rayas verticales
La idea general para calcular la ruta más corta es calcular las distancias acumulativas más
cortas a todos los nodos terminales de una etapa, y luego utilizarlas como dato de entrada
a la etapa subsiguiente.
Partiendo del nodo 1, la etapa 1 llega a tres nodos terminales (2, 3 y 4)
ETAPA 1
– Del nodo 1 al nodo 2 hay 7 km
– Del nodo 1 al nodo 3 hay 8km
– Del nodo 1 al nodo 4 hay 5 km
La distancia más corta es de 1 à 4 con 5 km
La Etapa 2 tiene dos nodos terminales (5 y 6). Se puede llegar al nodo 5 desde los nodos
2,3,4 Se puede llegar al nodo 6 desde los nodos 2, 3
Nodo terminal 5
USUARIO 7
Se puede llegar al nodo 6 sólo desde los nodos 3 y 4. Por lo tanto
Resumen de la etapa 2. Distancia más corta del nodo 1 al nodo 5 5 12 millas (desde el
nodo 4) Distancia más corta del nodo 1 al nodo 6 5 17 millas (desde el nodo 3)
USUARIO 8
2. Una etapa actual está conectada a la etapa inmediatamente precedente sólo (sin tener
en cuenta las etapas anteriores) con base en el resumen de distancias más cortas de la
etapa inmediatamente precedente.
7 RESUMEN
9 CONCLUSIÓN
Finalmente hemos hablado del aprendizaje por refuerzo (reinforcement learning, RL)
como una extensión de la programación dinámica. Esta es un ´área de la inteligencia ´
artificial centrada en determinar qué acciones debe escoger un agente de software en un
entorno dado con el fin de encontrar la máxima recompensa. Para acabar, hemos
presentado dos de los principales algoritmos de RL: SARSA y Q-learning
USUARIO 9