Exposicion Equipo 12. Programacion Dinamica y Teoria de Juegos PDF

República Bolivariana de Venezuela
Universidad Católica del Táchira

Facultad de Ciencias Económicas y Sociales
4to año Gerencia de Empresas
Táchira – San Cristóbal
Programación Dinámica y
Teoría de Juegos
Integrantes:
Ali Parra, Argenis Alejandro
V-27.920.045
Bustamante Villamizar, Jaime Alexis
V-22.677.673
Dueñez Contreras, Valeria Andrea
V-26.289.030
Jaimes Moreno, Yuliana Alexandra
V-28.061.967
Prato Miranda, Merly Loreidy
V-27.052.295
Mayo, 2020
1
Índice de Contenido
INTRODUCCIÓN…………………………………………………………………….3
CONCEPTOS BÁSICOS PROGRAMACIÓN DINÁMICA…………………………4
CARACTERÍSTICAS DE LA PROGRAMACIÓN DINÁMICA……………………4
RESOLUCIÓN DE UN PROBLEMA DE PROGRAMACIÓN DINÁMICA………..5
EJERCICIO CLÁSICO DE PROGRAMACIÓN DINÁMICA: EL VIAJERO……….5
DEFINICIÓN TEORÍA DE JUEGOS……………………………………………….11
CONCEPTOS BÁSICOS DE TEORÍA DE JUEGOS……………………………….11
CARACTERÍSTICAS DE TEORÍA DE JUEGOS…………………………………..12
EJERCICIOS DE TEORÍA DE JUEGOS……………………………………………13
- JUEGOS DE SUMA CERO O SUMA CONSTANTE………………………13
- JUEGO DE SUMA NO CERO O SUMA VARIABLE……………………...14
CONCLUSIÓN………………………………………………………………………19
REFERENCIAS BIBLIOGRÁFICAS……………………………………………….20
2
Introducción
Cuando hablamos de programación dinámica nos referimos a la forma de encontrar

soluciones a problemas de optimización en forma secuencial. La solución de estos
problemas se basa en el principio óptimo enunciado por Bellman en 1957. Este tipo de
programación cuenta con una serie de generalidades y características que definen la
metodología y la toma de decisiones por etapas, así, la programación dinámica consiste
en solucionar el presente suponiendo que en cada etapa futura siempre se tomaran las
decisiones correctas.
El juego es una de las principales actividades que realizamos todos y cada uno de
nosotros desde nuestra infancia. La Teoría de Juegos ha demostrado una gran
versatilidad para la resolución de problemas actuales. Partió de la Teoría Económica y
la Teoría Matemática para estudiar la interacción entre los agentes económicos y
analizar el resultado que tendrían sobre los participantes. En términos generales,
podemos decir que la Teoría de Juegos estudia los dilemas que se le presentan al
hombre en la vida cotidiana.
El diseño de estrategias competitivas, su ejecución, las múltiples negociaciones

cotidianas dentro y fuera de las organizaciones e incluso nuestras relaciones
interpersonales, están repletas de factores estratégicos que pueden analizarse en el
esquema conceptual de la teoría de juegos.
3
Programación Dinámica
Cuando hablamos de programación dinámica nos referimos a la forma de

encontrar soluciones a problemas de optimización en forma secuencial. La solución de
estos problemas se basa en el principio de óptimo enunciado por Bellman en 1957. Este
tipo de programación cuenta con una serie de generalidades y características que
definen los pasos para aplicar la metodología y la toma de decisiones por etapas, así, la
PD consiste en solucionar el presente suponiendo que en cada etapa futura siempre se
tomaran las decisiones correctas.
Conceptos Básicos de Programación Dinámica
Variables de decisión: son aquellas sobre las cuales se debe definir su valor, de modo
que se pueda optimizar el beneficio acumulado y modificar el estado de la próxima
etapa.
Variables de estado: son las posibles condiciones variadas en las cuales el

procedimiento se encuentra en esa etapa del problema y el número de estados, pueden
ser finitas o infinitas.
Decisión óptima: es aquella que se usa para enlazar cada sub-problema.
Relación recursiva: es el producto que provoca una fórmula que pertenecen a varios
valores de S basado en el principio de optimalidad.
Características de la Programación Dinámica
✓ Naturaleza secuencial de las decisiones: el problema puede ser dividido en

etapas.
✓ Cada etapa tiene un número de estados asociados a ella.
✓ La decisión tomada en una etapa determina cual será el estado de la etapa
siguiente, así que, el efecto de la decisión tomada es transformar el estado actual
en un estado asociado con el inicio de la siguiente etapa.
✓ El procedimiento de solución termina cuando se obtiene la política optima de
la última etapa.
✓ Siempre se dispone de una relación recursiva, esto es lo que permite trabajar las
decisiones interrelacionadas.
✓ El principio de optimalidad es el principio básico de la programación dinámica,
que fue desarrollado por Richard Bellman: que una ruta óptima tiene la
propiedad de que cualesquiera que sean las condiciones iniciales y las variables
4
de control (elecciones) durante un período inicial, las variables de control (o de
decisión) elegidas durante el período restante debe ser óptimo para el problema
restante, siendo la condición inicial el estado resultante de las primeras
decisiones tomadas.
Resolución de un Problema de Programación Dinámica.
1. Identificar etapas, estados y variable de decisión: cada etapa debe tener

asociada una o más decisiones (problema de optimización).
- Cada estado debe contener toda la información relevante para la toma de
decisión asociada al periodo.
2. Describir las ecuaciones de recurrencia: se debe indicar como se acumula la
función de beneficios a optimizar (función objetivo) y como varían las
funciones de estado de una etapa a otra.
3. Solucionar: se debe optimizar cada sub-problema por etapas en función de los
resultados de la resolución del sub-problema siguiente.
Ejercicio 1:
Modelo de la ruta más corta:
En este tipo de ejercicios lo que generalmente se quiere buscar es minimizar distancias,

costos, tiempos en el transcurso de un origen a un destino.
A continuación, vamos a explicar el problema del viajero, un ejemplo clásico de la

programación dinámica.
El viajero desea ir de la ciudad 1 a la 8 por el camino más corto.
5
Cada nodo representa una ciudad, los números en las líneas es la distancia entre una
ciudad y otra.
La función recursiva es: fn*(Sk)= Rk (Sk,dk) + f*k-1(fk(Sk,dk)
Donde,
Rk (Sk,dk)= retorno (distancia, costo, utilidad) en la etapa k
F*k-1(fk(Sk,dk)= optimo anterior
Planteamos el problema del estado final al estado inicial.
Sk = variable de estado k que refleja en qué punto nos encontramos en la etapa k.

(origen)
dk= variable de decisión k que refleja a que punto nos dirigimos en la etapa k. (destino)
f*= optimo ( en este caso como hablamos de distancia el óptimo será el valor mínimo)
d*= decisión optima
Paso 1:
Dividimos la cantidad de etapas. Cada etapa será una intersección entre los nodos
existentes que pueden ser origen o destino dependiendo de la etapa donde nos
encontremos.
N=3 etapas.
6
Paso 2:
Planteamos la etapa 1
- Los nodos 3, 6, 7 se convierten en origen y el único destino al cual se dirigen

es el nodo 8.
- ¿Qué me dice la función recursiva? La distancia + el valor optimo anterior.
Como estamos en la etapa 1 no contamos con optimo anterior, por lo tanto, lo
único que tendrá es el retorno de la misma etapa y el óptimo valdría 0.
Por esta razón decimos que,
N=1
S1/d1 8 f1* d1*
3 18 18 8
6 40 40 8
7 9 9 8
Concluimos la primera tabla, es la más sencilla porque no tenemos optimo anterior.
7
Paso 3:
Planteamos las etapas 2.
- Los orígenes serán el nodo 2, 4, 5 y los destinos serán los nodos 3, 6, 7.

- Los destinos de la etapa 2 eran los orígenes en la etapa 1. Esto es lo que
usaremos en el óptimo de la etapa anterior. Para ello necesitamos la tabla
anterior.
N=2
S2/d2 3 6 7 f2* d2*
2 - -
4 -
5 -
Los guiones en los recuadros representan que no existe comunicación entre nodos. Por
ejemplo, nos fijamos en la imagen del nodo 2 al 6 no hay ningún enlace, lo mismo
ocurre del 2 al 7, del 4 al 7 y del 5 al 3, por lo tanto, inhabilitamos la casilla.
8
S2/d2 3 6 7 f2* d2*
2 28 - - 28 3
4 38 49 - 38 3
5 - 44 24 24 7
Recordamos la función recursiva: fn*(Sk)= Rk (Sk,dk) + f*k-1(fk(Sk,dk)
f2*(2,3)= 10+18=28
¿Cómo me fijo en el óptimo anterior? El destino 3 va a ser origen en la tabla anterior

(etapa 1), de allí obtengo el número que se encuentre en f* lo que indica que es el
óptimo para esta etapa.
Así procedemos con los demás valores,
F2*(4,3)= 20+18=38
F2*(4,6)= 9+40=49
F2*(5,6)= 4+40=44
F2*(5,7)= 15+9=24
Paso 4: planteamos la etapa 3
- El origen es el nodo 1 y el destino es el nodo 2, 4, 5.
N=3
9
S3/d3 2 4 5 f3* d3*
1 35 63 29 29 5
Usamos la misma función:
F3*(1,2)= 7+28=35
F3*(1,4)= 25+38=63
F3*(1,5)= 5+24=29
Después de tener todas las etapas procedemos a realizar la interpretación, para ello
necesitamos las tres tablas bien desarrolladas.
Comenzamos formulando desde la última etapa (n=3)
Hemos iniciado en el nodo 1 y tomamos la decisión de ir al nodo 5. En el origen 5

decidimos ir al nodo 7. En el origen 7 optamos por el último destino que es el nodo 8.
Distancia total: 5+15+9= 29 km
El 29 es igual al valor óptimo que obtuvimos en la última tabla. En programación

dinámica esta es la forma de verificar que hemos obtenido el resultado correcto.
10
Teoría de Juegos
Es un tipo de análisis matemático orientado a predecir cual será el resultado

cierto o resultado mas probable de una disputa entre dos individuos, trabajando en la
elaboración y manejo de un tipo especial de modelos, denominados juegos, el cual es
un modelo de situación de independencia estratégica. Su objetivo es utilizar un
proceso de abstracción que lleve de la situación real a un sistema de relaciones mas
sencillo, mas claro y preciso, donde en su marco se verá facilitado el análisis
deductivo.
Conceptos Básicos de Teoría de Juegos
Teoría de Juegos: es una rama de la matemática con aplicaciones a la economía,

sociología, biología y psicología, que analiza las interacciones entre individuos que
toman decisiones en un marco de incentivos formalizados (juegos).
Concepto de Juego: es la situación interactiva especificada por el conjunto de

participantes, los posibles cursos de acción que puede seguir cada participante, y el
conjunto de utilidades.
Concepto de Jugadores: son los individuos que toman las decisiones tratando de
obtener el mejor resultado posible.
Concepto de Acción: es una de las opciones que el jugador tiene disponible para
alcanzar el objetivo buscado.
Concepto de Información: es el conocimiento de los valores de las distintas variables.
Concepto de Estrategia: es un plan de acciones completo que se lleva a cabo cuando

se ejecuta el juego. Se explicita antes de que comience el juego, y describe cada
decisión que los jugadores deben tomar durante el transcurso del juego.
Estrategia Dominante: es aquella elección que realiza el jugador independientemente

de lo que haga el otro. Si cada jugador tiene una estrategia dominante se puede predecir
el resultado del juego.
Estrategia Punto de Silla o de Equilibrio: es un pago que es simultáneamente un

mínimo de una fila y un máximo de una columna.
11
Concepto de Resultados: son las conclusiones que el moderador obtiene una vez se
ha llevado a cabo el juego.
Equilibrio de Nash: es una situación en la cual todos los jugadores han puesto en
práctica, y saben que lo han hecho, una estrategia que maximiza sus ganancias dadas
las estrategias de los otros. Consecuentemente, ningún jugador tiene ningún incentivo
para modificar individualmente su estrategia.
Matriz de Pagos: es una matriz que resume la información dada por las funciones de
pago en un juego rectangular o en un juego extensivo en su forma normal.
Características de la Teoría de Juegos
✓ La teoría de juegos es una herramienta que ayuda a analizar problemas de

optimización interactiva (el ajedrez, la negociación política, las estrategias
militares)
✓ Es útil para tomar decisiones en casos donde dos o más personas que deciden
se enfrentan en un conflicto de intereses.
✓ La mayoría de las situaciones estudiadas por la teoría de juegos implican
conflictos de intereses, estrategias y trampas.
✓ Es utilizada en estrategias de conflictos, guerras de precios, decisiones de cartel,
relaciones sindicato-empresa, acuerdos y negociaciones políticas, económicas,
militares, entre otras.
12
Ejercicios de Teorías de Juegos
Juegos de Suma Cero o Suma Constante: son juegos en que los intereses de los
jugadores son contrapuestos. La ganancia para un jugar siempre se equilibra
exactamente por una perdida correspondiente para el otro jugador. Por lo tanto, la
perdida de cada jugador es igual al beneficio de su contrincante. A su vez la forma más
sencilla de resolución de juegos de suma cero es la siguiente:
➢ MAXIMIN-MINIMAX. EJEMPLO:
En la siguiente tabla se muestran 2 jugadores con 3 estrategias cada uno.
JUGADOR B
Estrategias 1 2 3 maximin
1 1 4 -1
JUGADOR A
2 1 -3 -2
3 3 3 2
minimax
Paso 1.
Para el JUGADOR A, se va a elegir el mínimo de estrategias de cada fila:
• Estrategia 1: -1
• Estrategia 2: -3
• Estrategia 3: 2
Para el JUGADOR B, se va a elegir el máximo de estrategias de cada columna:
• Estrategia 1: 3
• Estrategia 2: 4
• Estrategia 3: 2
JUGADOR B
1 1 4 -1 -1
JUGADOR A 2 1 -3 -2 -3
3 3 3 2 2
minimax 3 4 2
13
Paso 2.
Para el JUGADOR A, se va a elegir el máximo de los mínimos, es decir 2.
Para el JUGADOR B, se va a elegir el mínimo de los máximos, es decir 2.
Paso 3.
Revisar si el MAXIMIN y el MINIMAX coinciden.
En este caso sí coinciden.
Por lo tanto, quiere decir que provienen de la misma celda y ocurre un punto de
equilibrio.
Resultado: EL JUGADOR A GANA 2 Y EL JUGADOR B PIERDE 2.
JUGADOR B
1 1 4 -1 -1
JUGADOR A 2 1 -3 -2 -3
3 3 3 2 2
minimax 3 4 2
Juegos de Suma No Cero o Suma Variable: son juegos donde no existen resultados
simples, donde un jugador gana y el otro pierde. Sino que existen otras posibilidades:
✓ Juegos en los que los dos oponentes ganan: ganar-ganar.
✓ Juegos en los que dos oponentes pierden: perder-perder.
✓ Juegos en los que uno de los oponentes gana y el otro pierde: ganar-perder.
A su vez los juegos de suma no cero tienen dos tipos de solución:
14
➢ MAXIMIN. EJEMPLO:
En la siguiente tabla se muestran 2 prisioneros por un mismo delito con las siguientes
opciones que se encuentran distribuidas de la siguiente manera:
Prisionero 1 = izquierda; Prisionero 2 = derecha.
Si uno delata y el otro no delata van a tener distintas penas:
Prisionero 1 delata: 7 años de cárcel (-7)
Prisionero 1 no delata: 10 años de cárcel (-10)
Prisionero 2 delata: libre de cárcel (0)
Prisionero 1 no delata: 1 año de cárcel (-1)
PRISIONERO 2
Minimo
Estrategias Delata No delata
Prisionero 2
Delata (-7,-7) (0,-10)
PRISIONERO 1
No Delata (-10,0) (-1,-1)
Minimo
Prisionero 1
Paso 1.
Se va a elegir el mínimo de cada uno de los prisioneros.
Prisionero 1: se debe hacer por columnas -7, - 10 = -10; 0, -1 = -1
Prisionero 2: se debe hacer por filas -7, - 10 = -10; 0, -1 = -1
PRISIONERO 2
Minimo
Prisionero 2
PRISIONERO 1 Delata (-7,-7) (0,-10) -10
No Delata (-10,0) (-1,-1) -1
Minimo
-10 -1
Prisionero 1 15
Paso 2.
Para los prisioneros 1 y 2 se va a elegir el máximo de los mínimos, es decir el

MAXIMIN. Para ambos prisioneros es -1.
Paso 3.
Revisar si el MAXIMIN de los prisioneros coincide.
En este caso sí coinciden.
Por lo tanto, quiere decir que provienen de la misma celda y ocurre un punto de
equilibrio.
Resultado: ambos prisioneros cumplirán una condena de 1 año de cárcel, porque

decidieron no delatarse.
PRISIONERO 2
Minimo
Prisionero 2
PRISIONERO 1 Delata (-7,-7) (0,-10) -10
No Delata (-10,0) (-1,-1) -1
Minimo
-10 -1
Prisionero 1
16
➢ Estrategias Dominadas. EJEMPLO:
En la siguiente tabla se muestran 2 prisioneros por un mismo delito con las siguientes
opciones que se encuentran distribuidas de la siguiente manera:
Prisionero 1 = izquierda; Prisionero 2 = derecha.
Si uno delata y el otro no delata van a tener distintas penas:
PRISIONERO 2
PRISIONERO 1 Delata (-7,-7) (0,-10)
No Delata (-10,0) (-1,-1)
Paso 1.
Para el Prisionero 1, se tiene que comparar cual estrategia es de mayor beneficio.
En columnas vemos las comparaciones. (-7,-10); (0-1).
Se va a desechar la opción de no delatar.
Para el siempre es mejor delatar.
PRISIONERO 2
No Delata (-10,0) (-1,-1)
17
Paso 2.
Para el prisionero 2, quedan dos opciones.
En filas se va a comparar. (-7,-10)
Se desecha la opción no delata.
Para el, la mejor opción es delatar.
Resultado: punto de equilibrio donde los dos cumplirían condena por 7 años (-7,-7).
PRISIONERO 2
No Delata (-10,0) (-1,-1)
18
Conclusión
La programación dinámica nos permite resolver un problema encontrando

soluciones sucesivas a sub-problemas de menor tamaño y enlazando dichas soluciones
como una sola optima del problema. Es una forma fácil de llegar a la solución de un
planteamiento original.
Si hablamos de teoría de juegos, su enfoque práctico y lógico ha provocado

que esta teoría sea usada en muchos escenarios y para fines diferentes.
La razón del éxito de la Teoría de Juegos es que la gente se dio cuenta que,
en escenarios muy diversos, siempre es más útil emplear el pensamiento formal y
sistemático, ante cualquier interacción estratégica.
Ello ha llevado a que esta metodología se emplee en cualquier ámbito donde

la estrategia debe ser el punto fuerte, ya sea el caso de los ejércitos en combate,
relaciones políticas o en decisiones económicas,
Aunque no se explique de forma evidente, muchos métodos de enseñanza que

se aplican en los colegios se basan en esta teoría y en el objetivo de capacitar a los
alumnos a usar la lógica y obtener los mejores incentivos con sus decisiones y
acuerdos con otros compañeros.
19
Bibliografía
1. Bronson, R. (1993). Investigación de operaciones, editorial McGraw-Hill

2. Taha, H. (2008). Investigación de operaciones, editorial Trillas.
3. https://issuu.com/aferro2901/docs/revista_inv_de_operacions
4. http://invop2.blogspot.com/p/teoria-de-juegos.html
5. http://www.economia.unam.mx/profesores/blopez/juegos-
Introducci%C3%B3n.pdf
20

Exposicion Equipo 12. Programacion Dinamica y Teoria de Juegos PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Exposicion Equipo 12. Programacion Dinamica y Teoria de Juegos PDF

Cargado por

Copyright:

Formatos disponibles

República Bolivariana de Venezuela

Universidad Católica del Táchira

Cuando hablamos de programación dinámica nos referimos a la forma de encontrar

El diseño de estrategias competitivas, su ejecución, las múltiples negociaciones

Cuando hablamos de programación dinámica nos referimos a la forma de

Conceptos Básicos de Programación Dinámica

Variables de estado: son las posibles condiciones variadas en las cuales el

Decisión óptima: es aquella que se usa para enlazar cada sub-problema.

Características de la Programación Dinámica

✓ Naturaleza secuencial de las decisiones: el problema puede ser dividido en

Resolución de un Problema de Programación Dinámica.

1. Identificar etapas, estados y variable de decisión: cada etapa debe tener

Modelo de la ruta más corta:

En este tipo de ejercicios lo que generalmente se quiere buscar es minimizar distancias,

A continuación, vamos a explicar el problema del viajero, un ejemplo clásico de la

El viajero desea ir de la ciudad 1 a la 8 por el camino más corto.

La función recursiva es: fn*(Sk)= Rk (Sk,dk) + f*k-1(fk(Sk,dk)

Rk (Sk,dk)= retorno (distancia, costo, utilidad) en la etapa k

F*k-1(fk(Sk,dk)= optimo anterior

Planteamos el problema del estado final al estado inicial.

Sk = variable de estado k que refleja en qué punto nos encontramos en la etapa k.

d*= decisión optima

- Los nodos 3, 6, 7 se convierten en origen y el único destino al cual se dirigen

Por esta razón decimos que,

S1/d1 8 f1* d1*

Concluimos la primera tabla, es la más sencilla porque no tenemos optimo anterior.

Planteamos las etapas 2.

- Los orígenes serán el nodo 2, 4, 5 y los destinos serán los nodos 3, 6, 7.

S2/d2 3 6 7 f2* d2*

Recordamos la función recursiva: fn*(Sk)= Rk (Sk,dk) + f*k-1(fk(Sk,dk)

¿Cómo me fijo en el óptimo anterior? El destino 3 va a ser origen en la tabla anterior

Así procedemos con los demás valores,

Paso 4: planteamos la etapa 3

- El origen es el nodo 1 y el destino es el nodo 2, 4, 5.

Usamos la misma función:

Comenzamos formulando desde la última etapa (n=3)

Hemos iniciado en el nodo 1 y tomamos la decisión de ir al nodo 5. En el origen 5

Distancia total: 5+15+9= 29 km

El 29 es igual al valor óptimo que obtuvimos en la última tabla. En programación

Es un tipo de análisis matemático orientado a predecir cual será el resultado

Conceptos Básicos de Teoría de Juegos

Teoría de Juegos: es una rama de la matemática con aplicaciones a la economía,

Concepto de Juego: es la situación interactiva especificada por el conjunto de

Concepto de Información: es el conocimiento de los valores de las distintas variables.

Concepto de Estrategia: es un plan de acciones completo que se lleva a cabo cuando

Estrategia Dominante: es aquella elección que realiza el jugador independientemente

Estrategia Punto de Silla o de Equilibrio: es un pago que es simultáneamente un

Características de la Teoría de Juegos

✓ La teoría de juegos es una herramienta que ayuda a analizar problemas de

En la siguiente tabla se muestran 2 jugadores con 3 estrategias cada uno.

Para el JUGADOR A, se va a elegir el mínimo de estrategias de cada fila:

Para el JUGADOR B, se va a elegir el máximo de estrategias de cada columna:

Para el JUGADOR A, se va a elegir el máximo de los mínimos, es decir 2.

Para el JUGADOR B, se va a elegir el mínimo de los máximos, es decir 2.

Revisar si el MAXIMIN y el MINIMAX coinciden.

En este caso sí coinciden.

Resultado: EL JUGADOR A GANA 2 Y EL JUGADOR B PIERDE 2.

✓ Juegos en los que los dos oponentes ganan: ganar-ganar.

✓ Juegos en los que dos oponentes pierden: perder-perder.

A su vez los juegos de suma no cero tienen dos tipos de solución:

Prisionero 1 = izquierda; Prisionero 2 = derecha.

Si uno delata y el otro no delata van a tener distintas penas:

Prisionero 1 delata: 7 años de cárcel (-7)

La función recursiva es: fn(Sk)= Rk (Sk,dk) + fk-1(fk(Sk,dk)

Recordamos la función recursiva: fn(Sk)= Rk (Sk,dk) + fk-1(fk(Sk,dk)