Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1
Sistemas dinámicos de la teoría de juegos y dinámicas de juegos
E. Akiyama, K. Kaneko
Recibido el 27 de marzo de 1999; recibido en forma revisada 25 de febrero 2000 ; aceptado 28 de junio 2000.
2
empleada en la teoría de juegos convencional. Ahí Rössler [18] ellos consideraban el uso de un modelo
principalmente dos cuestiones que nos gustaría te- abstracto de multiplicar ligado junto a optimizado-
ner en cuenta aquí. La primera de ellas se reere al res autónomos. Éstas recientemente han sido desa-
efecto que las acciones de un jugador pueden tener rrolladas por Ikegami y Taiji [8,22]. Examinemos
en el entorno del juego. Las acciones seleccionada las preguntas anteriores con más detalle en relación
por cualquier jugador sin duda tendrá un efecto en al juego de investigación teórica sobre la evolución
las acciones de los demás. En realidad, sin embargo, de sistemas.
es también posible que las acciones de un jugador
pueden afectar al real entorno del juego en sí. A
través de esta inuencia, el juego real en el que el 1.2. juegos estáticos y juegos de sis-
jugador está involucrado puede también cambiar. temas dinámicos
Luego, a través de tales cambios en el ambiente de
juego, los benecios en cuanto a las acciones de un Cualquier interacción con la toma de decisiones
jugador pueden también ser cambiado. agentes múltiples (jugadores) que tienen diferentes
intereses se denomina juego. Básicamente, la teo-
Además de las cuestiones que implican el efecto
ría de juegos investiga los criterios para el compor-
de una acción de jugador en el entorno del juego,
tamiento racional de todos los jugadores. En este
deseamos examinar la cuestión de la conexión entre
contexto, uno de los objetivos más importantes en
un jugador de función de pagos y el estado de ese
estos días es el uso de concepto de equilibrio de
jugador. (Usamos la palabra "Estado" que signi-
Nash para llevar a cabo el equilibrio análisis. Tal
ca aquí para propiedades internas generales de un
análisis de los equilibrios de los juegos ha produci-
jugador que puede cambiar, la condición real del ju-
do resultados considerables hasta la fecha, especial-
gador o el modelo interno del mundo exterior que el
mente para los juegos no cooperativos. Las teorías
jugador tiene.) Por ejemplo, considere un jugador
desarrolladas para esta clase de juegos también se
que participa en un concurso en varias ocasiones con
han ampliado para producir aún más resultados en
el mismo rival en un entorno de juego que no lo ha-
el análisis de los juegos cooperativos
ce cambiar con el tiempo. En este caso, la utilidad
Es indudable que este tipo de análisis de equili-
de las posibles acciones del jugador siempre sigue
brio es extremadamente ecaz, y que es indispensa-
siendo el ¾mismo? la evaluación del jugador de su
ble como una técnica teórica de base. Sin embargo,
posible acciones varían de acuerdo con los cambios
cuando pensamos en los grupos de la vida real de
en su interior ¾estado?
los organismos vivos o de fenómenos sociales, pa-
Además, nos gustaría tocar aquí el fundamental rece que hay ejemplos donde otros enfoques serían
punto de vista de la teoría de juegos tradicional con más ecaces. En particular, el cambio dinámico en
respecto a la situación mencionada anteriormente. lugar de equilibrio es inherente a un gran número
En tradición la teoría de juegos, una situación de de situaciones. Por ejemplo, en el mundo real no
este tipo se representa a veces por uno (grande) jue- es inusual que las comunicaciones y las interaccio-
go. Es decir, desde el presente hacia el futuro, todas nes mutuas entre individuos, como las estructuras
las posibles acciones de todos los jugadores en todos sociales imperantes, continuamente cambian de mo-
los puntos en el tiempo son tomadas en cuenta. Por do que una condición de equilibrio nal no es nunca
lo tanto es posible la bifurcación de patrones del alcanzada. No es apropiado para el tratamiento de
juego que se derivan con esta situación en un con- estos fenómenos como una transición sencilla hacia
junto que se representa como un enorme árbol de un equilibrio teórico condición (es decir, viéndolos
juego. De esta manera, podemos proyectar el curso como evoluciona los procesos de aprendizaje), ya
del tiempo en un juego estático y analizar su so- que el cálculo incompleto disponible potencia para
lución en la forma de un juego-árbol o una matriz los agentes individuales en algunas decisiones irra-
de juego. Estrategia aquí signica el plan de acción cionales que se hizo. Dar un ejemplo sencillo, un
para todos los puntos en el tiempo, y el análisis de punto de vista distinto de equilibrio de análisis es
una solución racional para un juego sólo es posi- claramente importante para la comprensión de la
ble cuando sabemos todas las posibilidades acerca naturaleza de la llamada evolución abierta.
de las acciones de todos los jugadores del pasado
En el pasado, la teoría de juegos evolutiva [10]
al futuro. Sin embargo, surge una importante pre-
ha ofrecido diversas hipótesis vericables y explica-
gunta aquí: ¾Siempre se toma nuestras decisiones
ciones acerca de la naturaleza de la evolución social
¾De este modo? Por otra parte, es incluso posible
y ecológica. Este tipo de análisis ha sugerido mu-
que hagamos una decisión de este tipo en el primer
chas e importantes teorías sobre la naturaleza del
lugar?
aprendizaje, la imitación, y patrimonio cultural /
Este tipo de problemas se consideraron prime- hereditario. En años más recientes, simulación por
ro por Rapoport [15] y Rashevsky [16]. Más tarde, ordenador del proceso evolutivo ha sido adoptada
3
en el estudio llamado vida articial. En este tipo forma en que los puntos de vista del jugador pue-
de investigación, el proceso general de la evolución de cambiar la situación completamente de utilidad
es tratado como un juego. Los juegos se resuelven de las posibles acciones. Incluso para los plátanos
mediante el uso de la toma de decisiones programa- del mismo tamaño, pensamientos tales como "este
das que representan los jugadores. El objetivo de plátano todavía puede crecer más", o "Probable-
este tipo de investigación es comprender el proceso mente este plátano ha dejado de crecer", o "ahora
general de evolución a través de experimentos de que es tan grande, las otras personas cercanas lo
computación. tomarán pronto ", la voluntad por sí mismos alte-
Ahora, en estos estudios sobre sistemas evoluti- ran la utilidad de la acción "comer plátanos". En
vos, los juegos adoptados no cambian con el tiempo, este punto, vamos a discutir con mayor detalle la
por denición. En otras palabras, las funciones de naturaleza de las posibles interacciones mutuas en-
evaluación de los jugadores en los juegos se man- tre las estrategias y el entorno del juego. Los juegos
tienen constantes. Ejemplos son juegos de un solo estáticos implican principalmente las estrategias de
disparo, al igual que el juego del halcón-paloma, y los jugadores individuales o de grupos de jugadores
también juegos como el dilema del prisionero itera- (en situaciones tales como la cooperación, traición,
do en la que el mismo juego se itera muchas veces. conspiración o co-evolución) con respecto a una de-
Debido a que los juegos por sí mismos en este caso nición de juego jo que persiste hasta que el juego
son de naturaleza estática, se Incluso se podría de- ha terminado. Tales juegos no se prestan a respon-
cir que una de las principales razones de la el éxito der a preguntas tales como "¾Qué efecto tienen el
de estos estudios es la representación "estática" de juego dinámico sobre la evolución de las estrate-
los juegos. Para mayor comodidad, en este trabajo, gias?. Por ejemplo, el entorno del juego puede ser
vamos referirse a esta forma de representación del oscilatorio o incluso caótico, y la evolución de las
juego como la estática de representación del juego. estrategias en estas circunstancias será muy dife-
rentes. Por supuesto que es También muy difícil de
Ciertamente, si pensamos en los fenómenos socia-
usar juegos estáticos para tratar de forma natural
les en el mundo real, hay muchos ejemplos que pue-
el problema complementario de cómo las acciones
den investigarse de manera muy ecaz en el marco
de un jugador puede producir la dinámica de juego.
previsto por representación del juego estático. Sin
Por ejemplo, si un jugador vive por la producción
embargo, en la otro parte, ejemplos de fenómenos
y el consumo de recursos en el entorno, no se pue-
que no pueden ser completamente analizado en es-
de determinar usando un juego estático Descriptivo
te marco también existen. Esto es debido a que el
porque hay estrategias que adoptar con el n para
entorno del juego del mundo real que en realidad
hacer la dinámica de tales ambientes productivos o
vivimos no es jo, y cambia con cada acción que se
para mantenerlos estables.
realiza dentro de una estrategia o cualquier cambio
El ejemplo más claro y sencillo que ilustra cómo
en el sistema de valor de evaluación utilizado por
las acciones de un jugador pueden cambiar un juego
un jugador.
en sí es la de efectos de retardo [19]. En el mundo
.En los juegos de la vida real, las interacciones
real que habitamos, nuestra racionalidad no puede
mutuas entre el entorno del juego y los jugadores
ser tan perfecta como la teoría de juegos requiere.
pueden tener un gran efecto. Por ejemplo, en sis-
De hecho, para los juegos que continuará a par-
temas de modelo de la vida real, el uso de una es-
tir del pasado en el futuro, podemos identicar los
trategia dada por un particular, el individuo puede
siguientes requisitos previos para un jugador para
causar cambios en el ambiente externo y en la ma-
tomar decisiones racionales.
triz de pagos del juego en sí. Promover, la matriz
1. El conocimiento perfecto de las reglas del jue-
de pagos local entre dos individuos puede cambiar
go.
dependiendo de la estrategia elegida por cualquiera
de posibles terceros. 2. La capacidad de enumerar todas las acciones
posibles, uno de los cuales el jugador puede elegir
Por otra parte, en los juegos de mundo real, la
en un punto dado a tiempo.
utilidad adjunta por un jugador para una deter-
3. La capacidad de identicar todas las posibles
minada estrategia puede cambiar de acuerdo al es-
situaciones que estas acciones generarían en el si-
tado actual del jugador. Para dar sólo un simple
guiente punto a tiempo.
ejemplo, la acción de comer un cultivo del plátano
en un árbol tiene bastante diferentes utilidades en 4. La capacidad de construir una representación
función del Estado actual del jugador con hambre. completa del partido desde el pasado hasta el futu-
Esto se hace más complicado cuando además tene- ro como una ramicación diagrama (por ejemplo,
del plátano y la forma en que el jugador considera 5. La capacidad de analizar completamente este
los estados de los otros jugadores cercanos. Aquí, la (típicamente) enorme árbol de juego y derivar un
4
equilibrio. 2.1. Un ejemplo de un juego de sis-
la acción que parece óptima en el entorno actual presentación el dilema social que surge en relación
no puede sea óptima cuando el juego se ve desde con la problema de la formación y el mantenimiento
un largo plazo perspectiva. Por ejemplo, median- de la cooperación en una sociedad, que a menudo
te la aplicación de la restricción en el punto de la está representado por el cuento clásico "la trage-
partida actual, es posible inuenciar el entorno del dia de los comunes", presentado por Hardin [7]. Su
juego de un futuro lejano que se ofrece benecios estructura es similar a la lógica del modelo dilema
muy ricos. De esta manera, la presente decisión de del prisionero si se considera a nivel de un juego es-
un jugador puede tener un efecto en el juego futu- tático. En otras palabras, se puede representar en
ro ambiente; esto es lo que llamamos el "efecto de forma de dilema una versión de n personas prisio-
retardo". Es evidente que los modelos estáticos de neros si lo proyectamos en juegos estáticos.
juego no pueden tratar con sistemas tales propieda- Aquí observamos varias diferencias importantes
des. Hay una diferencia fundamental entre las dos en modelado dilema social entre el leñador de dile-
por última vez, de lo contrario aspirar a una alta dinámica de los tamaños de los árboles deben ser
rentabilidad " y "adquirir una alta rentabilidad al expresados explícitamente en el dilema de los leña-
5
2. Los jugadores toman decisiones de acuerdo con el juego natural, (Tabla 1). El conjunto se compone
su propia decisión de los mecanismos de toma, de n jugadores, también llamados los tomadores de
f, al referirse tanto los estados de los alrededo- decisiones, y (Tabla 1) es compuesta de cuantica-
res de los jugadores y de todos los jugadores dores que pueden cambiar de acuerdo con la
(incluyendo a uno mismo).
2.3. Componentes del juego de los sola dimensión.Es decir, no nos ocupamos de, por ejemplo,
la relación entre la dinámica de las diferentes variables
sistemas dinámicos de un jugador. Y así, todos los yi 's que aparece en este
documento puede ser considerado como y1i .Corresponde a
Los componentes básicos del mundo de juegos DS los futuros estudios y i quese implementa como un vector en
son el conjunto de jugadores, N = {1, 2 . . . , n}, y el marco juego DS.
6
Denotando el tiempo por t , la dinámica del juego, Los juego DS es caracterizada por g y F. Aquí,
g, se representa como sigue: el juego como un sistema dinámico es representado
por embed-ding de los jugadores proceso de toma
de decisiones en la dinámica f del sistema g.
g : (x (t) , y (t)) → (x (t + 1) , y (t + 1)) . (1)
Al igual que en el mundo real, el sistema que debe 3. La discusión del modelo de
tener en cuenta los cambios de manera autónoma,
incluso sin acciones de los jugadores. Llamamos es-
juego de los sistemas dinámicos
ta propiedad la ley natural del sistema. Una deci-
Aquí nos gustaría discutir un marco de nuestro
sión hecha por un jugador también puede afectar el
modelo de juego de los sistemas dinámicos se des-
entorno del juego, los otros jugadores, y él mismo.
cribe en la sección anterior. Primero discutimos los
En otras palabras, X e Y se puede cambiar tanto
méritos de la introducción de gramo y F para la
por el derecho natural y el efecto de las acciones
dinámica de juegos. También discutimos la racio-
de los jugadores, a. Por lo tanto g consiste en una
nalidad limitada y la iterada dilema del prisionero
la ley natural, u, y el efecto de las acciones de los
para la comparación. Analizamos a continuación las
jugadores, v:
propiedades necesarias que los jugadores deben te-
u : (x(t).y(t)) → (x(t), , y(t), )........................(2)
ner en un entorno de juego dinámico, en referencia
v : (x(t), , y(t), , a(t)) → (x(t + 1), y(t + 1)), .....(3)
a Rössler de modelo optimizador autónoma de un
g = vou.....................................................(4)
articial cerebro.
Aquí hemos adoptado el orden de u y v, como
en Eq. (4), para incluir sucesivamente los efectos
3.1. La racionalidad limitada, el dilema de los
sobre el movimiento del juego producidos por la
presos que se repiten y sistemas dinámicos
acciones de los jugadores y otras causas. Utilizar
del ordenamiento inverso es igual de válido El objetivo fundamental de este trabajo es
v : (x(t), y(t), a(t)) → la situación en que los tomadores de decisiones
(x(t), , y(t), ), ..................(5) interactúan entre sí, bajo diversas condiciones
u : (x(t), , y(t),´ ) → (x(t + 1), y(t + 1)), ...........(6) variables de un entorno dinámico, como en el
g = uov......................................................(7) mundo en que vivimos. Aquí, es importante en-
tender los mecanismos de desarrollo o evolución
de sociedades, las comunicaciones emergentes, y
2.5. Decisión función de decisio-
el comportamiento de un jugador que se pueden
nes, f observar en esta situación. A n de que compren-
damos estos mecanismos, qué tipo de actitud se
El jugador i se reere al estado del entorno del debe ¾tomar?
y −i 2
2
juego x, que de los otros jugadores y la de a
sí mismo en la determinación de la acción ai que Desde el punto de vista de la teoría de juegos, se
deben tomarse, basada en su propio mecanismo de podría argumentar que los análisis de situaciones
toma de decisiones fi .Llamamos esta función la similares al juego han sido ya completados. Por
toma de decisiones. La función fi da reproductor ejemplo, ya se ha demostrado que existen mejores
de juicio de valor i de todas las actividades posi- estrategias para dos jugadores, jugar al ajedrez,
bles, mientras que la función se puede cambiar a y que los resultados del juego se pueden determi-
través de la evolución o un proceso de aprendizaje. nados antes de jugar si tanto los dos jugadores
En otras palabras, la función de representa la per- tienen la racionalidad completa. Además, se ha
sonalidad del jugador i. El funcionamiento de fI se demostrado que el comportamiento racional en el
da. nito iterado juego del dilema del prisionero (IPD)
i i
f : (x(t), y(t)) → a (t) (in).........................(8) siempre traiciona. El problema aquí, sin embargo,
Nosotros representamos el conjunto de toma de es que estas soluciones teóricamente óptimas a
decisiones de todos los jugadores funciona como f= menudo dieren de la forma en que las personas se
1 2 n
f , f , . . . f y la operación de f como sigue: 3 3 comportan realmente en tales situaciones. El origen
f : (x (t) , y (t)) → a (t) ..............................(9) de esta diferencia parece radicar en el supuesto
básico de la teoría de juegos, la racionalidad de los
jugadores. La racionalidad de la teoría de juegos
2 y i ≡ (y 1 , y 2 , . . . y i−1 , y i−2 , . . . y n ).
por lo general requiere demasiada capacidad. Por
3 Precisamente hablando,(x (t) , y (t))debe ser escrita co-
ejemplo, las siguientes suposiciones se hacen a
mo (x (t), , y (t), )porque usamos la ecuación (4), pero usa-
mos, (x (t) , y (t)) en esta denición de f para la legibilidad menudo en la teoría de juegos modelos.
y simplicidad.
7
Los jugadores que participan en un juego son Tabla 3
todos racional los tomadores de decisiones. Matriz de pagos utilizado por Dresher y Flood
tra en la Tabla 3.
5
Este factor de complicación conduce a cierta
dicultad en la aplicación de la teoría de El dilema del prisionero se repitió 100 veces con
juegos en situaciones reales en el que la po- dos jugadores en este experimento. En este juego,
tencia de cálculo de los jugadores es encerrado. el equilibrio de Nash es (jugador 1, jugador 2) =
(defecto, defecto) si los jugadores reconocen cada
paso de este experimento como un juego aislado,
Los problemas que implican esta racionalidad no y también la es 100 veces de repetición de (defec-
son connados a la capacidad de cálculo de un ju- to, defecto) si que consideran todo el experimento
gador. Incluso si un jugador puede calcular fácil- como un juego repetido. En cualquier caso, la solu-
mente la solución racional, no es inusual para que ción teórica para ambos de los jugadores es siempre
se comporte de una manera contradictoria con a que defecto. Sin embargo, las exposiciones reales expe-
racionalmente siguiendo el resultado de este cálcu- rimentaron un comportamiento mucho más coope-
lo. Por ejemplo, en el juego IPD nito, la estrate- rativo que la predicha teóricamente.
gia de equilibrio de Nash para ambos jugadores, es
Además de los experimentos con (iterado) el di-
desertar siempre (traicionar). En este caso, no es
lema de los prisioneros, se han realizado una serie
necesario que los jugadores tienen una enorme ca-
de experimentos llevado a cabo utilizando personas
pacidad de cálculo para determinar la solución co-
reales. También en estos experimentos, la gente a
rrecta por inducción. Sin embargo, como se muestra
menudo se comportaron de manera muy diferen-
por algunos experimentos relacionados con el IPD,
te de la manera predicha teóricamente, incluso en
tal comportamiento no siempre es observado. Como
juegos simples donde los jugadores necesitan poca
un ejemplo famoso, se muestra aquí el experimento
deducción para encontrar los equilibrios de Nash
llevado a cabo por Melvin Dresher y Merrill Flood
(por ejemplo, el capítulo 5 de donde los participan-
[5]. (Este experimento se llevó a cabo en 1950 donde
tes se comportan de manera muy diferente [4]). Lo
Tucker acuñó la frase dilema de los presos.
4 )
anterior puede considerarse como la consecuencia
8
ha habido varias aproximaciones al problema de la entender las estructuras de los jugadores y inves-
racionalidad limitada. Una de ellas utiliza simula- tigar los comportamientos de los jugadores en diver-
ciones por ordenador para sas condiciones, estableciendo sus habilidades como
nos gusta. Otra ventaja de la utilización de los or-
5 La matriz de pagos se hizo asimétrica. Cuando los denadores es que permiten la investigación de cola
jugadores seleccionen (1 jugador, el jugador 2) = (defecto,
de- de un gran sistema de juegos y experimentos en
defecto) o (cooperar, cooperar) en el juego del dilema del
prisionero con un pago de matriz simétrica, no podemos relación con la evolución de los jugadores o el apren-
negar la posibilidad de que se seleccionen las acciones dizaje también son posibles, por ejemplo, mediante
simétricas basado en la sensación de que el mismo benecio
la introducción de los algoritmos de la mutación en
mutuo ganado es la ganancia de equilibrio y la solución
los programas de los jugadores . Una ventaja de
racional, tanto para el jugadores.
usar ordenadores para estudiar la comportamiento
de juegos es que en este caso, se construye un ju-
gador como un programa de ordenador, de manera
que podamos plenamente entender las estructuras
de los jugadores e investigar comportamientos de
los jugadores en diversas condiciones mediante el
establecimiento de sus habilidades como nos gusta.
Otra ventaja de la utilización de los ordenadores es
que permiten a la detallada investigación de un gran
sistema de juegos, y experimentos con respecto a la
evolución o el aprendizaje de los jugadores también
son posibles, por ejemplo, mediante la introducción
de mutación algoritmos en los programas de los ju-
gadores. Por ejemplo, simulaciones por ordenador
han sido llevadas a cabo por en representación de
los jugadores por los autómatas nitos [13,20]. Eso
se ha demostrado en estos estudios que la coope-
ración se realiza en el IPD con un número nito
de iteraciones, si la memoria de los jugadores son
incompletos. En un sentido, estos resultados son si-
milares a los comportamientos cooperativos a me-
nudo vemos en la realidad en situaciones similares
a la IPD.
9
lización de la cooperación en la etapa 100 del IPD Es lo que nosotros tenemos, sin embargo siempre
poder ser racionalizado Teóricamente. los fondos se comportan de esta manera? No ¾Hay casos en
teoricos de esta racionalización de cooperación es los que esperamos a que crezcan los árboles? No
el denominado teorema de Folk, que es una teoría hay casos en los que crecen y los árboles cortados
básica para los juegos innitamente repetidos. El alternativamente? .
teorema de Folk establece que un juego de super G Esta situación es similar a la de los experimentos
∞, el cual es una repetición innita de un juego G, IPD descritos anteriormente donde los comporta-
tiene puntos de equilibrios de Nash que satisfagan mientos de los jugadores se encuentran a veces en
las siguientes condiciones.
6 contradicción con la conclusión teórica que asume la
1. Cada uno de estos puntos también se puede racionalidad completa de un jugador. Entonces, si
realizar en el juego G por la combinación de las vamos a suponer que los jugadores, inevitablemen-
estrategias de los jugadores.
7 En otras palabras, te, han racionalizado limitadamente como nosotros
existe cada punto dentro del denominado conjunto mismos, ¾qué tipo de enfoque es posible en el juego
factible del juego G. del dilema de los leñadores?
2. La ganancia media para cada jugador en cada El juego del dilema de los leñadores puede ser
uno de esos puntos es mayor que la recompensa considerado como un tipo de multi-etapa del juego
más pequeña asegurada por la mejor respuesta para Si se describe en tiempo discreto, a pesar de una
cada jugador en G. En otras palabras, cada jugador etapa del juego repetido es generalmente llamado
debe ser individualmente racional. un juego de escenario. Eso es imposible, sin embar-
Los estados de cooperación realizadas en IPD uti- go,para aplicar una cadena lógica de los jugadores
lizando estrategias tales como "ojo por ojo", al pa- [jugadores acotada racionalidad] [aproximación
recer las condiciones antes mencionadas; por lo tan- para un iterado juego innitp] [El teorema de
to, se puede concluir que estos estados son los equi- Folk] para el dilema de los leñadores, porque el teo-
librios cooperativos. Si se asume que cuando nos rema es aplicado solamente para juegos que impli-
encontramos con una situación similar a la ENI, (i) can una iteración de un solo juego de etapa, invaria-
reconocemos eso como un innito IPD juego, y (ii) ble, mientras que el juego de DS cambia de forma
nosotros determinar nuestras acciones sobre la ba- dinámica en hora.
se de un cálculo del equilibrio de un juego innita- Nosotros hemos formulado el marco de la sección
mente reiterado, esta combinación de racionalidad 2, el juego de los sistemas dinámicos. Con el n de
limitada de los jugadores y el teorema de Folk es hacer frente a los problemas mencionados anterior-
bastante razonable. En este punto, volvamos nues- mente, el modelo de juego de DS es bastante simple,
tra atención a los juegos dinámicos. Tomemos, por con dos características importantes, las dinámicas
ejemplo, el juego del dilema de leñadores, que se de juego y de toma de decisiones de los jugadores
introdujo en la Sección 2.1. En el juego del dilema mecanismos incorporados en la dinámica del juego.
de los leñadores, el comportamiento de la tala de Aplicando ing este marco, podemos considerar el
un árbol ofrece a los jugadores un cierto grado de comportamiento de los jugadores con racionalidad
benecio, y por lo tanto esta acción son las maneras limitada y la dinámica resultantes del juego en sí
más rentables que el comportamiento de hacer nada a través de los dos resultados experimentales y un
o esperar. Si los jugadores son racionales, el equi- análisis del modelo
librio de este juego se caracteriza por la situación
en la que todos los jugadores continúan cortando
3.2. Autónoma optimizador
árboles para siempre, mientras que hay poca ne-
cesidad de potencia computacional para identicar En el modelo de juego de DS, formulado en la
este equilibrio. sección 2, las variables x , y , y una (ver Tabla
2) cambian con el tiempo después de g y f . Por
6 Más estrictamente hablando, este equilibrio de Nash se otra parte, f cambios en una escala de tiempo más
realiza sólo cuando el factor de ganancia de descuento de los
jugadores del G ∞ , que descuenta los pagos de las etapas lento de la evolución o de aprendizaje. El concepto
futuras, se hace lo sucientemente cerca del límite superior 1.0. básico de esta modelo es relacionado al autónomo
En este caso, el pago normal es idéntico a la ganancia media
en todas las etapas. Fundenberg y Tirole [6] han discutido el optimizador, introducido por Rössler como un
teorema de Folk en detalle. 7 Estrategia de cada uno puede modelo para sistemas biológicos complejos (en
ser la estrategia mixta (estadística), por ejemplo, si hay dos
estrategias puras A y B, la estrategia de 20 % estrategia A plus particular para el cerebro), aunque el juego de DS
80 % estrategia B es posible. puede hacer su camino desde el punto de vista de la
teoría de juegos a la de los sistemas dinámicos. Por
lo tanto, el conceptos de juego teoría, tal como el
jugador y la recompensa (por cada acción posible),
se explícitamente introducidos en el juego de DS.
Como resultado, podemos saber el corto alcance
10
y de largo alcance racionalidad en juegos de DS. dinámicos. Esto, sin embargo, no es un enfoque útil
Esto sugiere la posible superioridad de los juegos cuando estamos interesados en la función o el com-
de DS a juegos tradicionales. Aquí consideramos la portamiento de un optimizador de sí mismo porque
DS juego modelo en relación al modelo de Rössler, conocer la dinámica no necesariamente resulta una
en particular se centra en la consideración de los comprensión de la optimización, y extraer el com-
jugadores estados y la toma de decisiones función. portamiento de los optimizadores de la dinámica es
en realidad poco práctico [18].
f , que también corresponden al concepto de mundo toma de decisiones para esta modelo es no basado
de los optimizadores autónomos '. Es decir, el juego en el pasado comportamiento, pero los estados
de DS se compone de dos clases inuyendo en cada actuales, la información de la historia pasada puede
uno: el dinámico sistema de juego y los jugadores ser que se incrustan en X y Y si los jugadores
Optimizadores Autónomas son una clase de sis- juego esta completamente dada desde el principio
11
(Tenga en cuenta que la dinámica y los parámetros F yo es la estructura interna del jugador e in-
de nuestro modelo de juego de DS toman valores visible para los demas que se implementa me-
numéricos reales.) La forma de f es renado como diante mecanismos para juzgar. Determina có-
se obtiene experiencia adicional. Por lo tanto las mo se reconoce el estado de fuera de objetos
experiencias pasadas se pueden incrustar en f . (el otros y el medio ambiente) y de él mis-
mo. El jugador k con el estado y k se reere
Como un ejemplo muy sencillo, consideremos el al jugador i 's estado y i , y toma su decisión.
siguiente conjunto de circunstancias: De hecho, las declaraciones "que parece estar
perdidos en sus pensamientos" y "parece estar
1. Las Manzanas que estaban en un plato han
enojado" son ambos descritos en f k (y K , y
desaparecido durante un corto período de tiem-
i ) . Como resultado, el jugador k toma una
po, mientras que yo no estaba viendo ( x ).
decisión como "nos dejó dejar jugador i por
sí sola, que se ha perdido en sus pensamientos
2. I (jugador i ) Ahora estoy muy hambriento (Y
"o" vamos a apaciguamos jugador i , quien es
i ) .
enojado". aquí nosotros no podemos conside-
3. Por otra parte, las expresiones faciales de las rar aparte del mecanismo de toma de cómo el
personas que se sientan a mi lado indican que jugador toma i se observa el estado del jugador
son muy satisfactorios (y -i ) . k . Es decir, desde el jugador k punto de vista,
y i es el estado basado en la expresión externa
Entonces puedo adivinar que las otras personas
pura del jugador i , mientras que cuando fk se
tienen que haber comido las manzanas. Si la
aplica a (Y i , y k ) , que es el estado del juga-
habitación es un sistema cerrado, la inferencia se
dor i como me imagino que sea. (Rössler [19]
hace aún más válida. Puede tomar venganza si
ha señalado la posibilidad de que el estudio de
mi decisión de hacer la función F yo ha sido su-
los optimizadores autónomas junto conducirá
cientemente capacitada para analizar la situación.
a una comprensión del desarrollo del lenguaje
Actualmente, los experimentos llevados a cabo en
humano, especialmente el uso y comprensión
este estudio muestran que el más sosticado sea
del pronombre personal "yo ".)
el modo de f referencia 's de x y y son, se pueden
observar los comportamientos más avanzados. Ahora consideramos brevemente la relevancia de es-
ta discusión que el modelo para el dilema de los
El signicado de la palabra "estado" tiende a ser leñadores. En teoría, la mejor estrategia puede ser
algo cuando decimos sobre el estado de un juga- siempre a talar el árbol más grande en cada punto
dor. Sobre todo cuando nos referimos al estado de en el tiempo en este juego, aunque esta estrategia
otra persona, su signicado inevitablemente implica solamente considera el tamaño de los árboles pero
un juicio de valor. Cuando nos jamos en la expre- no a los estados de los jugadores. Desde el punto de
sión facial de otra persona, nuestra evaluación de vista del juego de DS, sin embargo, los estados de
cómo la persona se ve, por ejemplo, "que parece los jugadores a veces juegan un papel importante.
estar perdido en sus pensamientos", o "que pare- La evaluación de la acción de cortar un árbol de-
ce estar enfadado", pueden variar de acuerdo con pende de si yo no estoy en un estado satisfactorio
nuestras experiencias pasadas y nuestra actual es- y si el siguiente jugador parece ser satisfecho. En
tado mental. Esta situación se puede expresar con realidad, el efecto de retardo antes mencionado se
más detalle con la terminología del juego DS como basa en parte en la evaluación de los estados.
sigue:
12
1. Mundo del juego, la ecología de la misma estrategia. A lo largo de todos los experi-
los leñadores , juego del dilema . mentos en este documento, los parámetros s y h se
lar especie, tienen que seguir la misma estrategia, y los siguientes:
fi
adoptar el mismo método de toma de decisiones. un decisión función de desiciones,
Cada leñador selecciona una colina favorita para una variable de la aptitud, la aptitud i .
leñadores y se compone de los siguientes:
colina y juega el juego LD allí. Cada juego en una
colina está completamente aislado de los juegos en El conjunto de jugadores:
N = {1, 2, . . . n}
las otras colinas, es decir, los leñadores en una co-
lina particular no tienen idea de cómo los juegos se El conjunto de los recursos:
E = {1, 2, · · · M }
juegan en otras colinas.
2. La colina, el lugar donde se juega Una variable de tiempo, cuyo valor indica el
ecosistema incluye el siguiente:
ción al azar y llevar un leñador de esa especie
un conjunto de especies de leñador:
a la colina i. Este leñador se llama un jugador
S = {1, 2, . . . , s}
un conjunto de las colinas:
en esa colina.
H = {1, 2, . . . h}
una variable de generación:
3. Repetir el procedimiento (2) hasta que el nú-
mero de jugadores alcanza el límite n. Leña-
Generación = (1, 2, . . .)
una variable que representa el número de espe-
dores de la misma especie pueden existir en la
misma colina.
cies hecho extinguida por el proceso de selección, k
. Los procedimientos anteriores se aplican a todas las
Una especie de leñador se dene como el conjun- colinas de la colina (desde la colina 1 hasta h ). Co-
to de todos los leñadores en la población que tienen mo resultado, cada colina llega a tener n jugadores,
13
y el juego LD se juega en cada colina. Las espe- m árboles. Cada jugador posee una variable unidi-
cies de jugador i en la colina η(H) se denota por mensional que representa su estado, con una fun-
S(η, i), o que abreviamos como S(i) cuando la co- ción de toma de decisiones (estrategia). Por ejem-
lina del jugador no es importante. Entre los nh le- plo, el estado del jugador i se denota por y i (t),
i
ñadores totales en todas las colinas, el número de y la función de toma de decisiones de f , de-
leñadores de las especies σ(S) se denota por el nú- nota por y(t) : (y 1 (t), y 2 (t), . . . , y n (t)) and f =
mero (σ), mientras que la puntuación media del ju- (f S(1) , f S(2) , . . . , f S(n) ). Cada componente de x(t)
gador i en la colina η en el juego LD se denota por y y(t) está representado por un número real positi-
medio (η, i), cuandoηH e iN . vo. En el juego LD, el estado de un jugador tiene
dos características importantes. En primer lugar,
En cada colina, allí viven leñadores n (jugado- 1. La ley natural. Los estados de los jugadores
res) que compiten por los m árboles (el recurso y de los recursos (los tamaños de los árboles)
de la colina). Denotemos el estado de los recur- cambian de acuerdo a una ley natural.
sos de una colina en el tiempo t por x (t ). x(t) = 4 Para ser precisos, sus decisiones no están basadas en x(t)
(x1 (t), x2 (t), . . . , xm (t))es un vector m -dimensional y y(t), pero en x(t)0y y(t)´. Estod puntos será tocados mas
cuyos componentes representan los tamaños de los adelante.
14
2. La toma de decisiones de los jugadores. Cada Donde z es el tamaño del árbol. En este caso, el
jugador elige su acción teniendo en cuenta los árbol crece a un ritmo de 50 %, pero su tamaño no
estados de los jugadores (incluido el suyo) y de exceda de 1.0.
los recursos.
´
Si un árbol no se corta, su tamaño en la siguiente o que se abstengan de cualquier acción. Cada juga-
ronda de xi (t + 1) está dada por xi (t) . Para uΞ , dor elige su próximo acción a(t) de una manera que
utilizamos dos tipos de mapas. En los experimentos depende del estado de su entorno, x e y. Una expli-
descritos en el presente documento, se utilizó prin- cación detallada de la función de toma de decisiones
cipalmente la siguiente función polinómica de tres f está dada más adelante (Sección 4.3).
dimensiones: Efecto de las acciones de los jugadores. Las
(3)
uΞ (x) = 0,7x3 − 2,4x2 + 2,7x. acciones de los jugadoresa(t) pueden reducir los ta-
El gráco correspondiente para y = uΞ (z) se mues- maños de los árboles x(t)0, y los valores de los esta-
tra en la Fig. 2 (a). Llamamos a este mapa un mapa dos de los jugadores que cortan los árboles aumen-
convexo debido a su forma. El proceso de crecimien- tan en consecuencia. En los experimentos reales, el
to de un árbol de una condición inicial x(0) = 0,10 tamaño del árbol i se va a convertir, en la siguiente
se muestra en la Fig. 2 (b) para el caso en el que no ronda, y vi veces más grande de lo que era, donde vi
se tala por ningun jugadore. Como se muestra en es el número de jugadores que la cortan (γ ≤ 1).
esta gura, el árbol crece rápidamente hasta alre- xi (t + 1) = γ vi xi (t)0.P
dedor de 3, pero está casi saturado a alrededor de Tenga en cuenta que iΞ vi ≤ n, ya que cada
4. Así, se ve que esperar demasiado tiempo no es jugador puede cortar a lo sumo un árbol en una
necesariamente una buena estrategia para los leña- ronda determinada. A lo largo de los experimentos,
dores. 1
el parámetro γ 3 . Observamos que
se establece en
1
Otra ley natural para el crecimiento de los ár- los resultados de las simulaciones con γ =
2 no son
boles que utilizamos en este trabajo es la siguiente signicativamente diferente.
función: Adquisición de un recurso cambia de estado de un
uΞ0 (z) = min(1,5z, 1,0), jugador. En este juego LD, un estado del jugador i,
15
y i (t) se toma para ser una función lineal del tamaño con x e y. La función para el jugador i (N ) que
i
de la madera que adquiere. Supongamos que a (t) = representa el mecanismo de toma de decisiones se
µ, el jugador i puede decirse que se han talado un dene como la función de toma de decisiones del
i
árbol μ a menos a (t) = 0. Aquí denota el tamaño de jugador i, f S(i) , donde S (i) denota las especies
jugador i
i i
la madera de construcción por ∆ .∆ , por supuesto, que el pertenece. f S(i) es la estructura
cero si el jugador i tiene seleccionado la acción 0, interna del jugador i y es invisible para los demás
es decir, no hacer nada. De lo contrario, se puede jugadores. La función de toma de decisiones del
determinar por el siguiente: jugador i actúa de la siguiente manera:
ronda
Como se ha indicado en la Sección 4.2.1, el estado 4.3.1. Referencia al estado de los ju-
de un jugador puede ser considerado como su esta- gadores
do nutricional, estado monetaria, etc. Suponemos
En la sección 4.2.1, el conjunto de los jugadores
que la utilidad del jugador i (∀iN ) es simplemen-
y los estados de los jugadores se denieron de la
te el estado actual, yi . Con respecto a la primera
siguiente manera:
ronda del juego LD, la utilidad del jugador i para
i
la ronda se maximiza eligiendo ∆ tan grande co-
mo sea posible. La utilidad de un jugador es una
Conjunto de jugadores: N = {1, 2, . . . , n} ,
función creciente de la tamaño del árbol que corta Estado de los jugadores: y = y1 , y2 , . . . , yn .
y una función decreciente del número de personas Sin embargo, esta representación se da desde nues-
que cortan del mismo árbol. tro punto de vista como observadores de los expe-
rimentos. Hemos asignado a los índices de los juga-
16
jugador i. Jugador i se reere, por ejemplo, el si-
guiente jugador en su izquierdo como el jugador 1,
f S(i) (x, ỹ) = ai if mtvai (x, ỹ) ≥ maxmtvr (x, ỹ).
el segundo a la siguiente como el jugador 2 ..., y rA
que considera el siguiente jugador a su derecha co-
Llamemos el mecanismo anteriormente descrito uti-
mo el jugador n − 1, etc. Medida en que el jugador
lizando el mapa de motivación del sistema de mo-
i puede distinguir a los otros jugadores numeran-
tivación. Al determinar la acción a tomar, la infor-
dolos por algún medio, este método de numeración
mación pertinente relativa al conjunto {mtvr } no es
está se puede hacer si otros pueden estar situados
el valor absoluto de cada mtvr , pero la identidad
en una línea, en zigzag, o dispuestos aleatoriamente.
del elemento con el valor más grande.
Como segundo método de identicación de jugado-
res, cualquier jugador dado (que se identique a sí Hay muchos tipos de implementaciones para los
mismo como jugador n ) los números de los otros mapas {mtvr | rA} puede ser apropiado, siempre
jugadores de 1 a n − 1 con el n de disminuir el y cuando cada uno es un mapa de (x, ỹ) a los
En el presente modelo, el estado propio de un dene como una función unidimensional de los
jugador, ỹ n , por lo general tiene un papel especial objetos de valor de estado x e y de la siguiente
17
4.4. Condiciones iniciales tipos de juegos DS que dieren del nivel de la des-
cripción concreta de la dinámica pueden clasicar
Hemos llevado a cabo varios experimentos con en el mismo juego estático.
diferentes condiciones, cambiando el número de ár-
boles, el número de jugadores, el tipo de funciones
de toma de decisiones, etc. En este caso, el resto de
ajustes iniciales que aún no han sido descritos son 5. Simulación
elegidos de la siguiente manera.
El escenario de la primera ronda del juego en cada evolutiva de una sola
colina es de la siguiente manera:
persona juegos LD
Valor de cada xi (iΞ) : 0,10 ;
pio estado. A través de la evolución de los jugadores ximización (o minimización) de problemas, es decir,
empiezan a considerar el mundo exterior y sus pro- la solución racional para un jugador en un juego de
pios estados. una sola persona siempre puede ser decidido única-
mente por la optimización de algunos funcionales ,
4.5. La discusión de la estructura de mientras que en los juegos con varias personas que
por lo general no es posible que un jugador para de-
pagos en los juegos LD desde el punto cidir su mejor comportamiento sin tener en cuenta
de vista de los juegos estáticos los procesos de toma de decisiones de los demás.
Por lo tanto, la dicultad en la solución de la estra-
Veamos, ahora tocamos lo que debe tenerse en
tegia óptima en los juegos de una sola persona es
cuenta acerca de la estructura de pagos del juego
sólo una técnica en lugar de uno conceptual, a pesar
LD simulado en esta sección. Desde el punto de vis-
de su signicancia [12]. Desde el punto de vista de
ta del juego estático, juegos LD con una ley natural
teoría de juego, lo que más importa en problemas
de ruta de tipo convexo para el crecimiento de los
de optimización ordinarios, como el problema del
árboles y los que tienen una ley natural de ruta de
viajante, es la posibilidad de construir la matriz de
tipo lineal son esencialmente los mismos. Conside-
pagos en sí. Una vez que se construye la matriz de
remos, por ejemplo, de una sola persona, juego LD
pagos de un juego de una sola persona, la solución
de un árbol. En el juego estático corresponde a una
para el comportamiento óptimo es meramente una
sola ronda de un juego LD, la banda sonora de la
cuestión de determinar la estrategia cuya rentabili-
acción de cortar un árbol en la matriz de pagos es
dad es la más grande.
siempre mayor que el de la acción de espera, in-
Por supuesto, el dilema que algunos juegos con
dependientemente de la elección de mapa de tipo
varias personas implican que no pueden aparecer
convexo o mapa de tipo lineal. Por otra parte, la
en un juego de una sola persona, incluyendo una
acción de esperar a veces trae al jugador un bene-
sola persona, juegos de dilema de leñadores, aun-
cio de largo alcance en cualquier tipo de juego LD.
que el nombre implica el término dilema. La pala-
En caso de juegos con varias personas, el juegos LD
bra utilizada dilema con respecto a los juegos con
de ambos tipos implican un dilema social y un jue-
varias personas por lo general corresponde a la si-
go de este tipo podría tomar la forma de un dilema
tuación en la que la toma de decisiones racional de
de n personas prisioneros si está representado como
cada jugador para maximizar su utilidad personal,
un juego estático. De hecho, los jugadores pueden
paradójicamente, se traduce en la reducción de los
maximizar sus benecios colectivos de la coopera-
servicios públicos de todos los jugadores.
ción mutua en la espera para el crecimiento de los
árboles, pero cada uno de ellos pueden maximizar 8 Juego no es nada, pero una formulación matemática re-
su benecio personal entregando los demás y el cor- presentando problemas entre más de tomadores de decisio-
te de los árboles más antiguos. Por lo tanto, varios nes.
18
Es decir, si los jugadores cooperan, todos ellos
podrían adquirir los servicios públicos más altos
(Pareto dominante), pero su racionalidad no per-
mite esta adquisición. Por otro lado, en los juegos
de una sola persona, la toma de decisión racional
de un jugador siempre maximiza su utilidad. Aho-
ra consideremos el caso de un juego LD de una sola
persona. En un juego de este tipo, la mejor estrate-
gia para un jugador es, simplemente, esperar siem-
pre para el crecimiento ciente de un árbol y luego se
corta, porque no hay ningún competidor que inten-
ta robar el jugador de la prot en este juego. Por lo
tanto, el juego es simplemente un problema de ma-
ximización. Aquí, el jugador puede controlar com-
pletamente los tamaños de los árboles y por lo tanto
puede aumentar la puntuación media por vuelta.
19
lizados para generar las primeras especies, creando 5.2.2. El juego en las primeras gene-
mutantes de la especie desde el juego anterior, y raciones (carta de acción, tabla de re-
decidir en qué Hill, un jugador de una especie par-
cursos, gráco de estado, y la toma de
ticular vivirá.) Para cada tipo de juego, un ejemplo
típico de los tres experimentos es presentado aquí.
decisiones función).
En la siguiente sección, una simulación evolutiva
de una persona con ruta tipo convexo LD juego es En las Figs. 5(a)-(c), la dinámica de un jugador
investigada. El resultado de una persona con dos de especies ID-00001 se traza. En este experimento,
árboles de ruta de tipo convexo LD juego está dada esta especie existió hasta la cuarta generación. Las
en el Apéndice A. Los fenómenos evolutivos de ruta Figs. 5(a)-(c) muestran la dinámica de la acción
de tipo lineal LD juego se examinan a continuación del jugador, el tamaño del árbol, y el jugador del
(en la última parte de la sección 6). estado, respectivamente. En todas estas cifras,
estas cantidades se representan frente a la ronda
ª
en un eje horizontal. Aquí, sólo el comportamiento
hasta la 50 ronda (entre el T = 400 balas) se
trazan, puesto que este comportamiento se repite
en forma periódica más allá de este punto.
20
5.2.3.La función de toma de decisio-
nes
La tercera especie más apto en la cuarta
generación, ID E-0000000, tiene la función de
toma de decisiones se ilustra en el gráco de
radar (ver Fig. 2). 7). Una función de toma de de-
14
cisiones en este papel es representado como sigue:
θlr y l + ξr . rA
P P
mtvr (x, y) = ηkr xk +
21
línea discontinua que cruza el eje entorno a un
valor negativo η10 , es decir, él espera cuando esté
satisfecho (su estado tiene un gran valor) y corta
el árbol cuando el árbol ha crecido grande. Esto es
razonable en la toma de decisiones.
ª
también por la especie más fuerte de la cuarta
lor de cero parael coeciente correspondiente. Por
generación de la 3604 generación.
ejemplo, el jugador descrito por la Fig. 7 apenas
se reere al tamaño del árbol X1 como para el in-
centivo para cortar el árbol (mtv1 ), desde la sólida
línea cruza el eje de entorno en un punto cercano
a ceroη11 . En otras palabras, este reproductor de
incentivo para cortar el árbol sólo depende de su
satisfacción, no en el tamaño del árbol (mtv0 , sin
embargo, depende en gran medida de la x1 y y 1 ).
ª
colina ocupada por un jugador más fuerte de la
la acción (a) y el recurso gráco (b) de la especie más fuer-
especie en la 64 generación (ID-000000C5). Este te de la 277ª generación. (c) el recurso gráco de la 3605ª
jugador consigue el crecimiento del árbol con un generación.
1. crecimiento del árbol basada en la ley natural
observa en la Fig. 8(a). La dinámica de crecimiento
(0.3064 0.6222).
periódico del árbol, con el tamaño varía entre 0,3 y
2. La decisión del jugador: "esperar" (0.6222 0,6, se realiza también en este caso. Sin embargo,
la especie-00000345 ID tiene, por supuesto, más
0.6222).
grande que la especie ID aptitud-000000C5 de la
Fig. 9. La diferencia entre la dinámica de estas
3. crecimiento del árbol basada en la ley natural
(0.6222 0.9194); dos especies sólo existe en la transitoria, antes de
que la dinámica del estado del jugador y el recurso
4. La decisión del jugador: "cortar el árbol" completamente cae en un ciclo periódico. Este
(0.9194 0.3064): El árbol llega a ser 1/3 período- 2 dinámico es característico de la especie
tan altos como antes, y el jugador adquiere la más fuerte a lo largo de muchas generaciones, pero
madera de la cantidad 0.9194-0.3064=0.6130, las variaciones en las dinámicas son exhibidos en el
aproximadamente. transitorio antes de la dinámica cae en un ciclo.
El predominio del período-2 dinámico termina en
22
la 3605 ª generación, cuando se convierte en una
especie de mejor apto que supervisa el período-7
dinámica (Fig. 9(c)). Una nueva especie dominante
del período-23 aparece en la 5848th generación y
uno de período-11 aparece en la 8984th generación.
Por lo tanto, se considera que el tiempo entre los
cambios de las especies más aptas es largo en las
generaciones posteriores.
5.2.5Dinámica de matrices de empate el eje vertical muestra la rentabilidad para cada acción.
ª
La dinámica de las matrices de pagos internos y
externos de un jugador de los más aptos en la 277
matriz de pagos externos. Tenga en cuenta que,
generación de especies se muestran en las Figs.
en cualquier caso, la recompensa de la acción 1 es
11(a) y (b)(cf. Las Figs. 9(a) y (b) en la sección
mayor que la de la acción 0.
anterior). Por construir esa dinámica de la matriz
de pagos, como se muestra en la Fig. 11(b), el
jugador puede adquirir promedio relativamente
alto de puntuación en este juego de LD para una
persona. Esta construcción es posible a través
de las experiencias en un juego que sigue una
23
Fig.12. Una simulación juego tipo LD para una perso-
na de mapa lineal .El gráco de la aptitud de la sola
persona de ruta de tipo lineal juego LD de la primera
generación de 60º se representa con una curva de ajuste
Fig. 11. La dinámica de la matriz de pagos (la 277ª gene- exponencial. La dinámica de juegos óptimos se realiza
ración):(a) la matriz de pagos externos; b) la rentabilidad en la 45va generación.
interna de Matriz.
6. Características de la
LD
24
considerado como el proceso de hacer el entorno de attractor, que implica desvío
11 a un attractor dife-
juego más y más productivo por los jugadores. Los rente.
jugadores intentan construir un entorno de juego 2. Evolución que cambia la parte transitoria
que les puede traer mayores ganancias. Por ejemplo, Por ejemplo, en el juego LD de un solo árbol dis-
el jugador de la gura. 13 (a) logrado en la construc- cutido en la sección 5.2, aparece dos periodos diná-
ción de un entorno de juego productiva, mientras el micos en la temprana generación (en la cuarta gene-
jugador en la gura. 13 (b) no lo hicieron. ración). Este período de 2 attractor domina largo de
muchas generaciones, hasta el patrón con período
de dominancia 7 (en el 3605va generación). Duran-
te estas generaciones de 2 attractor la evolución só-
lo avanza sobre parte transitoria. La evolución que
cambia la parte attractor es difícil que se produzca.
Se puede decir que la evolución con un desvío a un
nuevo attractor trae consigo una gran innovación,
mientras que la evolución sobre la parte transitoria
es una mejora mínima para hacer el entorno del jue-
go productiva. Aquí la gran innovación no implica
necesariamente un gran aumento en el pago, sino
más bien un cambio estructural importante en la
dinámica. Ambos tipos de evolución puede cambiar
la aptitud de las estrategias, pero las maneras en
las que afectan a la dinámica del juego son comple-
Fig. 13. Dos grácos de recursos en la misma genera- tamente diferentes. Sólo un cambio en el attractor
ción (la generación 277 va) para un juego LD de una conduce a la innovación cualitativo en la dinámica
sola persona, un árbol: (a) un ejemplo de los jugadores del juego. En juegos con dos perdonas (o más), la
lograron construir d un entorno de juego productivo. (b) diferencia es más clara. Por ejemplo, un cambio en
un ejemplo de los jugadores que no pudieron hacerlo. el transitorio altera la manera en la que se forma un
Consideremos la gura 14. Aquí el gráco de re- cierto tipo de cooperación, mientras que la del at-
cursos observado en la treceava generación, del jue- tractor implica un cambio en el tipo de cooperación
go LD está representado por dos árboles de ruta de en sí.
tipo convexo. Como se ve, la dinámica nalmente Por vía del contraste, vamos a interpretar el pre-
cae en un ciclo periódico. Este periodo dinámico sente juego LD como un juego estático convencio-
continúa hasta la ronda nal. Por ello se considera nal. En este caso, necesitamos construir una corres-
un attractor de la dinámica del juego. En general, la pondencia de una serie temporal de las acciones a
dinámica del juego se puede dividir en una parte del una función de pago. Hay dos maneras de construir
attractor (Que es periódica en el presente caso), y tales funciones de pago de juegos estáticos. Uno de
una parte transitoria. La dinámica correspondiente ellos implica un mapa del conjunto de acciones (ac-
a un attractor, por supuesto, no necesita ser perió- ción 0, acción 1,. . . ) sobre las puntuaciones y el otro
dica, pero puede ser cuasi-periódica, caótica, y así es un mapa del espacio de parámetros de las fun-
sucesivamente. ciones de toma de decisión de los leñadores sobre
la puntuación media de 400 rondas. No importa el
tipo de mapa que se seleccione, podemos encontrar
el cambio de la recompensa causado por la modi-
cación de las decisiones de los jugadores en un juego
estático, y además podemos encontrar el equilibrio
de la estructura de pagos, al menos teóricamente.
Con el modelo de juego estático, sin embargo, no
podemos investigar cómo el cambio de la recom-
Fig. 14. Parte periódica y parte transitoria para un jue- pensa se introduce por un cambio del attractor o
go de una sola persona, dos árboles. dinámica transitoria. El proceso evolutivo de cómo
En cada juego LD para una sola persona pre- las estrategias cambian la dinámica no pueden ser
sentado en este documento, la dinámica del juego analizada. La distinción entre gran innovación (co-
observada en cada colina cambia su patrón con la mo desvío) y la mejora mínima, que es especialmen-
generación, a través de la evolución de estrategias.
11 En el documento original se encuentra escrito bifurca-
El efecto de la evolución de la dinámica del juego
tion que en español se puede traducir como bifurcación cuyo
se puede clasicar en los dos siguientes tipos:
signicado es división de una cosa en dos ramales, brazos o
1.Evolución que cambia el patrón de la parte del puntas, en este caso se toma su sinónimo que es desvío
25
te importante en los juegos con varios jugadores, no Las acción del jugador está determinado únicamen-
puede ser entendido. te por el sub espacio en el punto de la órbita pre-
sente (x, y) reside. Por su puesto estos hiperplanos
son diferentes para cada jugador. Por ejemplo, la
6.2 Relación entre la dinámica y dimensión del espacio de GP es 2 cuando un juego
de LD se compone de una persona y un árbol (N =
las estrategias de juego 1, M = 1, A = 0, 1).Este espacio de GP se divide
en dos sub-espacios por una línea recta (es decir,
En esta sección, discutimos la relación entre la
un hiperplano de dos dimensiones) denida por la
toma de decisiones de los jugadores y la dinámica
ecuación mtv0 (x, y) = mtv1 (x, y). El jugador selec-
de juego. La teoría del juego estático por lo general
ciona la acción 0 si la fase actual se encuentra den-
se ocupa de la estructura matemática de la función
(x, y) Rnm+n |mtvp (x, y) >
tro del sub-espacio
R
de ganancias (o pagos) de cada jugador: (espacio de
mtvq (x, y)y la acción 1 en caso contrario. De es-
estrategias) (pagos). Para el juego LD, pode-
ta manera, la estructura de partición de espacio de
mos describirlo también de la siguiente manera
GP y la fase actual determina el punto orbital en la
siguiente fase única, y una partición de espacio GP
A2 → R (iN )
tal permite al jugador seleccionar su acción para
cualquier estado de juego dado.
donde A es el conjunto de acciones posibles, N el
En general, podemos utilizar una decisión más
conjunto de jugadores, y R representa el pago en
complicada haciendo la función de mapas con la
cada ronda del juego LD. Si asumimos que los ju-
motivación de dimensión mayor que 1 que divide
gadores tienen suciente potencia de cálculo para
el espacio GP en sub-espacios con varios hipersu-
tener en cuenta las acciones de todos los jugadores
percies (es decir, no necesariamente hiperplanos).
en todas las rondas T, esta estructura también se
Con esta aplicación, el procesamiento de informa-
puede describir de la siguiente manera:
ción compleja y estrategias son posibles.
x(el espacio de parámetros de iesimo de decisio-
i
nes haciendo función) R (iN ) 6.2.1 Diagrama AGS
Donde R representa la puntuación media de todas
las rondas. Una representación de la función de pa- Aquí vamos a considerar un modelo simplicado
gos por encima viene dada por el paisaje del punta- e un juego LD de una sola persona, un solo árbol
je promedio, que se presentará más adelante. Como con el n de investigar el efecto del cambio de la
se ha indicado en el apartado anterior, la dinámica función de toma de decisión sobre el attractor de
del juego de hormigón producidas por la toma de la dinámica del juego. Hacemos dos simplicacio-
decisiones de los jugadores es ignorado en las fun- nes. Primero, el jugador nunca se reere a su pro-
ciones de pago anteriores. Por lo tanto, no podemos pio estado, y. Es decir, el jugador toma su decisión
hablar sobre el papel que la estructura de la diná- teniendo en cuenta solamente el tamaño del árbol.
mica del juego juega en la evolución de la toma de Segundo, el jugador corta el árbol si su tamaño ex-
decisiones. cede un cierto valor, llamado valor de decisión, xd
Por otro lado, la estructura que implica la toma 12 . El valor de decisión determina de forma única
de decisiones de los jugadores y la dinámica del jue- la serie de tiempo de la fase (x, y). El attractor de
go es investigado usando el diagrama de AGS a ser la serie de tiempo puede corresponder a un pun-
introducidos en Sección 6.2.1. Para prepararse pa- to jo, periódico, cuasi-periódico, o el movimiento
ra su discusión, vamos interpretar el juego de DS caótico, en función de la ley dinámica (incluyendo
como una órbita en el espacio de fases. la ley natural) del sistema.
La dinámica del juego de DS son descritos por Como en un diagrama de desvío, hemos trazado
m n
las series de tiempo de x R+ e y R+ . Lla- 12 La decisión de valor x se introduce estipulando x =
d d
memos al espacio de fase(m + n) dimensional del
−(ξ1 − ξ0 )/(n1 − n2 )para los parámetros en la función de to-
entorno de juego = espacio del jugador (GD), por ma de decisión. Esto se puede ver observando los dos puntos
simplicidad. La dinámica del juego corresponde a siguientes:
mtvp (x, y) = mtvq (x, y)(p, qA, p6=q) Así, el jugador cortará el árbol si y solo si x >xd
26
el valor x en el attractor en la g.15 (a), como una gura un diagrama AGS. (B) paisaje de la puntuación
función de xd . La gura muestra cómo el attractor promedio: la puntuación media se representa como una
de la dinámica del juego cambia con el parámetro función del valor de decisión xd . La puntuación media
de la función de toma de decisiones. Llamemos a es la puntuación que el jugador recibe durante el tiempo
tal gura un diagrama AGS (la transición del at-
que x está en un attractor.
El diagrama AGS muestra el cambio del attrac-
tractor de la dinámica del juego frente al cambio
tor con el cambio del parámetro de control, como
de la estrategia). Con el diagrama de AGS, se pue-
el diagrama de desvío a veces utilizado en el análi-
de estudiar cómo la naturaleza de la dinámica del
sis de sistemas dinámicos. Este diagrama es ecaz
juego cambia entre varios estados (dinámica de jue-
para extraer características de los sistemas dinámi-
go punto jo/periódico/caótico o dinámica de juego
cos del juego DS. Sin embargo, el diagrama AGS
productivo/improductivo, etc.) con un cambio en la
posee un signicado adicional a la de diagrama de
toma de decisiones.
desvío. La diferencia radica en la decisión controla-
Las dos siguientes características de la g.15 (a)
da por los parámetros de control. En el juego DS,
son:
el parámetro de control viene dada por el tomador
1. Para cada valor de decisión, su respectivo attrac-
de decisiones, que se encuentra dentro del sistema.
tor es siempre un ciclo periódico.
Esto contrasta con el parámetro de desvío externa
2. Hay número innito de mesetas, en la que los at-
en los sistemas dinámicos. En otras palabras, lo que
tractores permanecen sin cambios durante un rango
en realidad observamos attractor entre los attrac-
de valores de decisión. Para ejemplos de tales me-
tors en el diagrama AGS es decidido por el jugador
setas, observe el período de 2 y período 3 de las
ya existente en el sistema.
mesetas en la Fig. 15 (a).
Corresponde a la Fig. (a), la puntuación media
En la simulación de la de una sola persona, juego
que el jugador obtiene durante la parte atractor de
de LD de un árbol (Sección 5.2), el periodo de 2
la dinámica se representa en la Fig. 15 (b) como una
attractor de la dinámica de la población x domi-
función del valor de decisión xd . Llamamos a este
na para muchas generaciones (hasta la generación
diagrama el paisaje de puntaje promedio. El valor
3600va). Este attractor corresponde a los dos seg-
de decisión óptima parece existir en la meseta pe-
mentos paralelos trazados alrededor xd = 0,8 en
ríodo de 2 alrededor de 0,8, por lo que podemos ver
la Fig. 15 (a). (Nos referimos a tales de segmentos
con la magnitud de esta gura. En consecuencia,
paralelos como meseta).
la mejor estrategia para el jugador parece construir
este periodo 2 dinámico, que de hecho se observa en
la etapa temprana de la simulación juego LD. Sin
embargo, al examinar el primer plano de la parte
izquierda de esta meseta periodo-2 en la Fig. 15 (a)
(indicada por la echa con (L)), innidad de me-
setas se encuentran acumulando allí, donde existen
dinámicas más rentables que los de periodo 2.
27
dominios fractales como el dominio L de la gura.
15 (a).
14
sucesivos primeros planos dados en las guras. 17 tra promedio de puntuación representan como fun-
(a) - (d). En el dominio de L con la acumulación ciones del parámetro η11 Estas cifras se obtuvieron
tors tienen una puntuación media más alta que la que aparece realmente en un juego de LD de una
del periodo 2. En particular, la puntuación media 14 Estas estructuras locales del diagrama AGS y el diagra-
más alta es lograda en el periodo de dominio 11. ma de puntuación promedio en este juego LD son ejemplos
Este juego LD de una sola persona tiene muchos de escalera de la llamada del diablo (por ejemplo, en la fun-
ción de Cantor), una característica general observada en la
adición de período es bastante común en cierres de fase de fase de bloqueo de la cuasi-periodicidad (véase, por ejemplo,
causi-periodicidad [9]. [11 , 14]).
28
sola persona, un árbol, aunque este jugador no per- LD juego, aunque este jugador no pertenece a las
tenece a las especies más aptas especies más aptas. Como se muestra en la Fig.18
(a) (con la parte del atractor solamente), el prome-
dio de la puntuación del jugador aumenta monóto-
namente con η 11. Figura 18 (a)' es la correspon-
diente AGS diagrama. (En este LD juego de una so-
la persona, cualquier función de toma de decisiones
resulta en un estado periódico como un atractor, y
el AGS diagrama siempre se compone de segmentos
de rectas paralelas.)
El paisaje del puntaje promedio para un número
nito de rondas incluyendo la parte transitoria, por
otra parte, como está trazada en la Figura. 18(b),
no cambia monótonamente con η 11, y tiene un pai-
saje accidentado. En este caso, no sólo la naturaleza
del atractor sino también la ruta como el atractor
está alcanzando a tener cierta importancia para la
evolución. Por supuesto, el proceso evolutivo diere
de acuerdo con el número de iteraciones del juego.
Por ejemplo, la importancia de la parte atractor
aumenta a medida que el número de iteraciones au-
menta.
29
se observa para las especies más aptas. Figura.19
15 se muestra en este paisaje, el valor óptimo de de-
es un ejemplo del paisaje de puntación promedio cisión satisfactoria xd ≤ 0,75 para el mapa de una
de edad trazada para la función de toma de de- persona de tipo lineal de juego LD.
cisión de las especies más aptas (ID-2A44) en la
generación 3605th. La puntuación media se repre-
senta como una función del parámetro de decisión
η 10, en (a) para la parte atractor y en (b) sobre
400 rondas con la parte transitoria. (Por supuesto,
en los juegos LD evolutivos en este documento, la
parte transitoria no es ignorada cuando se calcula
la puntuación media de un leñador.) Aquí, las espe-
cies en la gura adoptan un atractor período-7 de
los juegos dinámicos. Este período-7 dinámico co-
rresponde a la meseta del período-7 en la Figura 15
(a), y es más productivo para el jugador que el pe-
ríodo 2 dinámico, aunque es menos productivo que
la dinámica en el dominio L. Como se muestra en la
Sección 5.2.4, esta especie domina la población por
muchas generaciones (acerca de 2200). ¾Por qué es
capaz de dominar durante tanto tiempo esta espe-
cie? La respuesta se da en el paisaje de la Figura 19
(b) obtenidos para un número nito de rondas con
transitorios. Como se muestra en la gura, la pun-
tuación tiene un máximo local en torno a la meseta
η 11 = 0. 193.352. Aunque la estrategia con este
valor de decisión no es la estrategia optima global,
se necesita una gran cantidad de cambio mutacio-
nal para escapar de este máximo local. En un juego Figura 3: Figura 20. El-mapa-tipo lineal de una sola
con un número nito de rondas, el paisaje es acci- persona LD juego. (a) El diagrama de AGS para
dentado, en contraste con el caso de una innidad el valor de decisión xd. Atractores cuasi periódicos
de rondas, y el proceso de evolución no alcanza ne- 2
aparecen para xd ≤ 3 . (b) El paisaje del puntaje
cesariamente la estrategia óptima fácilmente. promedio desde la ronda 200th a la 400th. El paisaje
está dada por una línea recta de xd ≤ 2.
6.2.4 Estructura dinámica de mapa ti-
po lineal de un juego LD En el juego LD-mapa de tipo lineal de la Sec-
ción 5.2.6, hemos observado la evolución rápida y
Figura 20 (a) es el diagrama AGS de una sola
sin contratiempos hacia la optimización del estado
persona-mapa-juego de tipo lineal LD. Esta gura
físico. Tal evolución es causada por la estructura no
muestra quela dinámicos son atraído a movimiento
accidentada que se ve en la Fig. 20.
2
cuasi periódico si xd ≤
3 , aunque el AGS diagra-
ma del juego LD- mapa de tipo convexo tiene un
atractor periódico para cualquier valor de decisión
(Fig. 15 (a)). Figura.20 (b) es el correspondiente
paisaje de puntuación media, donde el paisaje no
2
es gradual, sino una línea recta de xd ≤ 3 . Como
15 Figura. 19. Efecto de la estructura de los juegos dinámi-
cos sobre la evolución del jugador. (a) y (b) son los paisajes
promedio de puntuación construidos usando la función de
toma de decisiones del jugador que es de las especies más
aptas (ID-2A44) de la generación 3605a en la actual per-
sona, un árbol de juego LD real de la Sección 5.2.4. El eje
horizontal corresponde al parámetro de la función de toma
de decisiones, η 10, mientras que el eje vertical corresponde a
la puntuación media. En (a), el valor medio sólo de la parte
periódica se representa. La puntuación media para todas las
rondas, incluyendo la parte transitoria (de la primera ronda
para el 400th), se representa en (b). El valor real para de
este jugador η 10 es 0,114588, como es indicado por la echa
en ambas guras.
30
7. Discusión descripción del sistema de tres campos es bastante
simplicada porque nosotros ignoraremos el siste-
ma social medieval, el clima, y las cuestiones de la
7.1 Estructura dinámica y la alimentación del ganado y de los excrementos [24].)
evolución de las estrategias de Aproximadamente hablando, las acciones facti-
bles en el sistema de tres campos se pueden clasi-
juegos DS car en el campo dando el campo del año de descanso
(barbecho)
16 y utilizando el campo para producir
En orden a discutir la relación entre la estruc-
una cosecha.
tura de juegos dinámicos DS y la evolución de las
El principal problema aquí es en qué orden es-
estrategias, consideremos, como un ejemplo real, el
tas acciones se llevan a cabo. Además, también es
sistema de tres campos de la rotación de cultivos
un problema importante determinar cuántas partes
que prevalecía en Europa Occidental medieval [24]. iguales de las tierras de cultivo deben ser divididas
Esta situación parece tener alguna relación con
dentro. En hecho, estas dos cuestiones son insepara-
el punto de vista de los juegos DS, ya que aquí
ble. Por ejemplo, supongamos que la mejor manera
de- cisión de un jugador tiene algún efecto sobre
de manejar las tierras de cultivo es sentar una par-
las variables que determinan el entorno del juego,
cela determinada de tierra bajo barbecho durante
mientras que el estado de estas variables afecta el
tres años consecutivos, y luego producir un cultivo
estado del jugador (por ejemplo, el estado nutricio-
durante cuatro años consecutivos, y repetir este ci-
nal del jugador, lo que podría ser cambiado por la
clo de 7 años indenidamente. A continuación, las
cantidad de cultivos disponibles).
tierras de cultivo deben ser divididas en siete (o un
El sistema de tres campos, que era una modica-
múltiplo de siete) con el n de obtener una cosecha
ción del sistema de dos campos que habían prevale-
cada año lo más uniformemente posible. La acción
cido en todo el Mediterráneo era un método efectivo
de dejar la tierra sin utilizar durante 3 años permite
para los agricultores o campesinos durante ese tiem-
al campo a recuperar su creciente potencial, aunque
po para gestionar dinámicamente los estados de sus
no ofrece ningún benecio a corto plazo, mientras
tierras de cultivo y recolección de los cultivos cada
que la acción del uso de la tierra para levantar las
año consecutivamente. Debido a esta la innovación,
cosechas, por supuesto, da la recompensa inmedia-
ellos fueron capaces de mantener la fertilidad de las
ta, sino que agota los nutrientes del suelo. En el sis-
tierras de cultivo, para evitar que la humedad dis-
tema de tres campos, la dinámica del estado de los
minuyera demasiado, y para controlar las malezas.
campos es de aproximadamente cíclico con un pe-
Con el sistema de tres campos, cada tierra de cul-
riodo de 3 años. Sin embargo, es difícil de creer que
tivo se divide en tres partes iguales, el campo de
el periodo del crecimiento de cada tipo de cultivo y
invierno, el campo de verano, y el barbecho, y es-
el periodo de la dinámica del estado de los campos
tos tres campos se utilizan alternativamente con un
son precisamente periódica. Si se utiliza algún tipo
período de 3 años. En el caso del sistema de dos
de ajuste de la dinámica periódicas con ecacia, un
campos, los campos agrícolas están divididos en el
sistema más productivo puede lograrse mediante la
campo del verano y el barbecho, utilizados alterna-
adopción de la dinámica más complicados, proba-
tivamente con un período de 2 años. (Además, en el
blemente, con un período más largo. Por supuesto,
momento de la revolución industrial, apareció una
la evolución de una mejor estrategia puede requerir
rotación de cultivos de 4 años, llamado el "Siste-
complicadas innovaciones, y los agricultores tienen
ma Norfolk" que incluye un año de crecimiento ali-
que pagar una estrategia con algunos óptimos loca-
mento para el ganado. Sin embargo, la estructura
les.
y el concepto de este sistema eran completamente
Cuando un campo estéril se mantiene como bar-
diferente de el de dos o tres sistemas de campos.)
becho durante un cierto periodo de tiempo, existe
No todas las áreas que utilizan los dos sistemas de
la posibilidad de que el campo recuperará su pro-
campo cambia al sistema de tres campos, porque
ductividad. Por otro lado, si el campo se mantiene
esta innovación fue causada en parte por el cambio
como barbecho demasiado tiempo, a largo alcance
climático que se produjo cuando el sistema de dos
su productividad disminuirá. Se necesita un equi-
campos se extendió desde la región del Mediterrá-
librio cuidadoso para gestionar la dinámica de es-
neo en occidental Europa. Sin embargo, es seguro
te entorno de juego. Un agricultor puede intentar
que el desarrollo del sistema de tres campos se basa
cambiar el actual sistema período de 3 en uno de
en la experiencia del sistema de dos campos.
periodo-4 o de periodo-5. Sin embargo, entre estos
Ahora, consideremos el sistema de tres campos,
que apareció como una mejora del sistema de dos 16 A pesar de que es el año de descanso, un cierto grado de
campos, desde el punto de vista de la modelización mano de obra es necesaria, tales como la eliminación de las
de juegos DS. (Tenga en cuenta que, la siguiente malas hierbas, arar, lo que permite que el ganado paste.
31
sistemas, la probabilidad de que se puede encon- jugadores y el cambio resultante de los juegos diná-
trar sistemas más rentables que el sistema de tres micos. La teoría de juegos puede examinar si alguna
campos es posiblemente pequeña. El plazo de 2 o estrategia es una solución racional (por ejemplo, un
3-dinámica es, por decirlo así, la dinámica meta es- punto de equilibrio) a el nivel de la estructura de
tables para los agricultores. pagos. La ejecución de la estrategia, sin embargo,
Nosotros hemos considerado hasta ahora el sis- puede ser difícil de realizar a través de la evolución
tema de tres campos desde el punto de vista de si la solución en la estructura de pagos se encuentra
la innovación considerando la dinámica del entorno dentro de un dominio caótico en el AGS diagrama,
de juego DS en una sola persona. Tal considera- en el sentido de que el tamaño de algoritmos para
ción desde el punto de vista de juego DS tiene una calcular el pago no puede ser acortado por cualquier
ventaja en caso consideramos los problemas del jue- método.
go en el mundo real. Al modelar concretamente la
situación real como un juego DS que describe con-
cretamente la naturaleza de la dinámica observa- 7.2 Modelos de la teoría de jue-
da en el ambiente del juego, podemos determinar
teóricamente una estrategia con una dinámica de gos y modelos de la física
juego adecuadas. Por ejemplo, supongamos que el
conjunto de estrategias - las prácticas de toma de Por último, vamos a discutir la ventaja general
decisiones de los jugadores - que determina la diná- del modelo de juego de DS sobre otros modelos. La
mica de juego (por ejemplo, el periodo 3 dinámicas modelación de juegos DS es adecuado para estudiar
antes mencionadas) se da como una regla explícita. la evolución / aprendizaje de los responsables de las
La teoría de juegos tradicional es capaz de determi- decisiones que existen en el mundo que pueden ser
nar la solución en el espacio de estrategias, al me- descritas por un sistema dinámico. Modelos de la
nos, siempre se trata de una sola persona o de dos teoría de juegos sin duda tiene una resistencia en el
personas en juegos de suma cero. Por otra parte, tratamiento de los problemas de los tomadores de
podemos descubrir dónde existen estrategias me- decisiones que interactúan entre sí. Por otra parte,
taestables en el espacio de estrategias a condición las descripciones con los modelos de sistemas diná-
de que la distancia entre las estrategias pueda ser micos son relevantes para investigar la naturaleza
denidas. Sin embargo, la teoría de juegos conven- de nuestro mundo dinámico del exterior.
cional no puede proporcionar cualquier información Mediante la aplicación de los modelos de la físi-
acerca de qué tipo de estrategias están permitidos ca, podemos saber, por ejemplo, las trayectorias de
en la dinámica del mundo. Por ejemplo, la teoría todos los posibles estados físicos. Sin embargo, el
de juegos puede conrmar que un sistema de siete punto de vista del juego es indispensable si existe
del conjunto de estrategias, pero, de otra manera, ca cuyas decisiones se basan en sus propias normas
no puede encontrar esta solución en principio. Por de racionalidad y cuyas decisiones pueden afectar
otro lado, cuando se describe un modelo como un a los estados físicos. Sólo desde el punto de vista
juego de DS, se puede demostrar que no es una deci- teórico podemos considerar cuales estados serán se-
sión cuyo resultado es un ciclo de período 7 median- leccionado por los fabricantes de decisión entre los
te el uso de, por ejemplo, un AGS diagrama, que se estados físicamente realizable, al menos en el mo-
basa en el método utilizado en el sistema dinámi- mento actual. En los sistemas dinámicos, se puede
co (discreto).
17 Otra ventaja del punto de vista de estudiar el cambio de la dinámica con el cambio de
un DS juego es que nosotros podemos investigar la parámetros de control externo (bifurcación), pero
relación entre la evolución de las estrategias de los no puedo discutir que el control sea posible dentro
del sistema. Para estudiar el comportamiento co-
17 20 Juegos dinamicos en los juegos de DS pueden ser des- lectivo de un grupo de jugadores (por ejemplo, la
critos por el estado inicial, (x, y) , y por la composicion de
dinámica de los precios de las acciones), los métodos
dos tipos de mapas (Sección 2.4), la ley natural, u , y el
de, por ejemplo, la mecánica estadística, en el que
efecto de las acciones de los jugadores, v , de la siguiente
manera: los jugadores pueden ser considerados como partí-
· · · V u v u v u v u. culas estadísticamente, pueden ser útiles. (En otras
Aquí, cada v diere de acuerdo con el valor de (x (t), y
palabras, la individualidad de cada jugador podría
(t)) (t = 0 , 1 , 2 , ... ) . (Más precisamente, u (x (0), y (0))
, u (v (u (x (0), y (0)))) , u (v (u (v (u (x (0) , y (0)))))),
ser descartado.) Sin embargo, para el estudio de los
··· ) . Por ejemplo, en el de una sola persona, de dos árboles grupos de organismos vivos o de la sociedad huma-
de juego LD, v puede ser v1 (cayó del árbol 1), v2 (cayó del na, la distinción entre partículas que interactúan e
árbol 2) o el operador de identidad (cayó ningún árbol). Un
interacción de los tomadores de decisiones es esen-
ejemplo del material compuesto correspondiente al mapa de
arriba es tan siguiente: cial. Los último son activo agentes en sus entornos
· · · V2 u u v1 u v2 u u u v2 u v1 u. de juego y cada uno toma decisiones, básicamente,
32
a n de aumentar su utilidad (tness).
18 Por otro aprendizaje, pueden ser afectado mediante la explo-
lado, las descripciones que consisten en modelos de ración de la estructura del diagrama AGS.
teoría de juegos no son anes a la dinámica de na-
turaleza, y, por lo tanto, no pueden afectar a cues-
tiones que pueden ser estudiadas sólo en los niveles
de la dinámica. Por ejemplo, el juego LD-mapa de
tipo convexo, que tiene la escalera del diablo en la
AGS diagrama, muestra los fenómenos evolutivos
Agradecimientos
con una innovación gradual.
Por otra parte, la evolución es suave, con rápida
convergencia a un óptimo acondicionamiento físico,
Los autores desean agradecer a T. Ikegami y S.
para la simple estructura dinámica en el Mapa de ti-
Sasa por las útiles discusiones. Este trabajo es par-
po lineal LD juegos. Como jado en Sección 4.5, un
cialmente apoyado por subvenciones en ayuda a
juego de mapa de tipo lineal tiene la misma estruc-
la Investigación Cientíca del Ministerio de Edu-
tura que un juego de mapa de tipo convexo desde el
cación, Ciencia y Cultura de Japón. El primer
punto de vista estática. Sin embargo, una diferen-
autor es apoyado por la Sociedad Japonesa para
cia aparece a menudo en el nivel de la dinámica del
la Promoción de la Ciencia bajo el Contrato No.
juego y la evolución de las estrategias (A nivel de
RFTF96I00102.
los juegos con varias personas, la presente modica-
ción no elimina el dilema social común que existe en
la versión anterior). Es decir, varios diferentes jue-
gos de DS se clasican en el mismo juego estático
si modelamos por la teoría de juegos convencional,
pero existe la posibilidad de que estos juegos ten-
gan completamente diferentes naturalezas a nivel
de la estructura dinámica, especialmente cuando la
evolución y el aprendizaje están involucrados.
19
7.3 Resumen
Lo que se necesita en el modelado de juego DS
es solamente la descripción de g y f. Con estos,
simplemente podemos modelar, en cierto sentido,
situaciones comunes donde las decisiones están in-
mersos en un mundo que es básicamente sujeto a
las leyes naturales. Por supuesto, esta simplicidad Figura 4: Figura 21. gráco de la aptitud en las
de la modelación no implica necesariamente facili- primeras generaciones de un juego LD de una sola
tación en el análisis. Sin embargo, las descripciones persona con dos árboles de generación (1 a 30).
desde la perspectiva de los juegos DS y el análisis
utilizando AGS diagrama nos permiten investigar
la relación entre la naturaleza de los juegos diná-
micos y la evolución de las estrategias. DS juegos
puede hacer frente a los problemas que involucran
ambos aspectos de nuestro mundo: el mundo co- Apéndice A. Gestión
mo un sistema dinámico y el mundo habitado por
los sujetos tomadores de decisiones. Ambos aspec- de múltiples recursos
tos son indispensables incluso en juegos de una sola
persona, porque los jugadores de decisión fabrica- dinámicos
ción mecanismos, cambiando mediante evolución y
33
A.1 El aumento de un árbol en
particular: el comportamiento de
las especies más aptas en las pri-
meras generaciones
Como en el caso de un juego de LD de un ár- el lado izquierdo están las cartas de acción y los de
bol, de una sola persona, el estado físico incrementa la derecha son las tablas de recursos. Las guras
valores escalonada y monótonamente. Las especies en la (a) se corresponden con el juego LD para
más aptos pueden cambiar en las generaciones pos- el jugador de las especies más aptas en la octava
teriores, pero el cambio no es frecuente, y el consi- generación, aquellos en la (b) para ese en el 13th
guiente aumento del valor del estado físico se con- Generacion, y aquellos en la (c) para ese en el
34
A.2 La evolución hacia la opti- [6] D. Fundenberg, J. Tirole, la teoría de juegos,
MIT Press, Cambridge, MA, 1992.
mización
[7] G. Hardin, La tragedia de los comunes, Ciencia
Un esbozo de la evolución en este unipersonal
162 (1968) 1243-1248.
juego de dos LD árbol es el siguiente: Figura. 24.
La evolución a medida que aumenta el número de [8] T. Ikegami, M. Taiji, imitación y la cooperación
generación. Estos son los grácos de estado corres- en reconocedores dinámicas acopladas: avances
pondientes a las tablas de acción y de recursos en en la vida articial, en: D. Floreano, J. Nicoud,
la Fig. 23. F. Mondada (Eds.), Actas de la V Conferencia
Europea, ECAL '99, Lausana, Suiza, Springer,
1. La frecuencia de corte del árbol 2 aumenta,
Berlín,1999.
mientras que la de corte 1 disminuye los árbo-
les. Como resultado, el jugador es capaz de ob- [9] K. Kaneko, Colapso de Tori y Génesis de caos
tener algún benecio también de árbol 2 (Fig. en sistemas disipativos, World Scientic Pu-
23 (a)). blishers, Singapur, 1986, 264 pp. (Basado en
la tesis de 1983).
2. El jugador inicia la gestión de periodos dinámi-
cos para los tamaños de los árboles que le apor- [10] J. Maynard Smith, la evolución y la teoría de
tan la mejor ganancia después sobre la ronda juegos, Cambridge University Press, Cambrid-
35
[20] A. Rubinstein, autómatas nitos jugar el dile-
ma del prisionero repetido, J. Econ. Theory 39
(1986) 83-96.
36