Está en la página 1de 36

Physica D 147 (2000) 221258

1
Sistemas dinámicos de la teoría de juegos y dinámicas de juegos

E. Akiyama, K. Kaneko

Recibido el 27 de marzo de 1999; recibido en forma revisada 25 de febrero 2000 ; aceptado 28 de junio 2000.

jugadores que utilizan estables la dinámica de juego


como una norma para la cooperación. Ahí nosotros
revelaremos el mecanismo que permite la formación
Resumen de la cooperación entre los jugadores, que crecen
y adquieren recursos dinámicos comunes. Esta for-
Un marco teórico que llamamos sistemas diná-
micos se presenta el juego, en el que el juego en mación se observa con frecuencia en nuestro mundo
sí puede variar debido a la inuencia de jugadores real, pero no puede ser representada en el marco de
comportamientos y estados. Ese es, la naturaleza la teoría de juegos tradicionales.
del juego sí ahí mismo es descrito como un sistema
En el tercer artículo, vemos el fenómeno evoluti-
dinamico. La relación entre la dinámica del juego y
la evolución de las estrategias se analiza mediante vo de las sociedades con la evolución de la referencia
la aplicación de este marco. experimentos de de cada tomador de decisiones hacia los demás esta-
ordenador son llevado a cabo por simples juegos dos. De mutuo interacciones, los jugadores forman
de una sola persona para demostrar la evolución
varias reglas para la administración de los recursos
de los sistemas dinámicos con el uso ecaz de la
dinámica recursos. dinámicos. Por ejemplo, podemos ver la formación
Palabras clave : sistema dinámico; Optimizadores acopla- de una norma según la cual cada jugador se le asig-
dos; evolutiva de juego.
na un determinado recurso de manejo y no lo hace,
roban a otros de sus recursos (recursos privados).
Como otro ejemplo, las reglas para la administra-
ción conjunta de recursos comunes se construyen
a menudo. Tal normas adoptadas por los jugado-
1. Problemas en la dinámica
res cambian con la evolución de las estrategias con
de juego respecto a la referencia a los estados de los demás.

Hay tres propósitos en el presente documento y


dos documentos posteriores. En primer lugar, se in- 1.1. La discusión de los problemas
tenta construir un marco teórico capaz de describir fundamentales
los aspectos dinámicos de entornos de juego y de los
agentes. Llamamos a este marco de los sistemas di- Si dos o más jugadores son responsables de las
námicos (DS) de juego. En segundo lugar, se expone decisiones tratando de obtener una óptima de re-
este marco abstracto concretamente con simulacio- sultados interactuando entre sí, el resultado de ca-
nes por ordenador para demostrar algunas caracte- da uno de ellos dependerá, en general, no sólo en
rística del modelos de DS juego. En tercer lugar, su propias acciones, sino en las de los demás. En
un punto de vista novedoso se proporciona desde el la teoría de juegos, von Neumann y Morgenstern
punto de juego de DS , con respecto a la aparición [12] tenido participación en el hecho de que este
de fenómenos sociales a través de las interacciones problema no es un ordinal máximo y que la forma-
entre las personas, el desarrollo de la comunicación lización de este tipo de problema debe tomar la for-
entre los agentes y los fenómenos evolutivos en las ma de matriz. Tuvieron éxito en la caracterización
colonias de organismos vivos. del problema como uno en la que cada individuo
El contenido principal de esta serie de artículos es "puede determinar las variables que describen sus
el siguiente. En el presente trabajo, lo primero que propias acciones, pero no los de la otros ", mientras
damos al general formulación del marco de juego de que, además," esas variables extrañas no pueden,
DS, y tratar las cuestiones en una sola persona en desde su punto de vista, ser descritas por supuestos
juegos de DS, en el que los juegos dinámicos están estadísticos "[12].
bajo el control del único jugador de decisión. En el Sin embargo, la teoría de juegos no es afín a los
segundo artículo, nos ocupamos de los problemas problemas de participación de los fenómenos diná-
con varias personas de los juegos de DS, centrándo- micos que implican múltiples tomadores de deci-
se especialmente en la cooperación ejercida por los siones debido a la naturaleza estática de la matriz

2
empleada en la teoría de juegos convencional. Ahí Rössler [18] ellos consideraban el uso de un modelo
principalmente dos cuestiones que nos gustaría te- abstracto de multiplicar ligado junto a optimizado-
ner en cuenta aquí. La primera de ellas se reere al res autónomos. Éstas recientemente han sido desa-
efecto que las acciones de un jugador pueden tener rrolladas por Ikegami y Taiji [8,22]. Examinemos
en el entorno del juego. Las acciones seleccionada las preguntas anteriores con más detalle en relación
por cualquier jugador sin duda tendrá un efecto en al juego de investigación teórica sobre la evolución
las acciones de los demás. En realidad, sin embargo, de sistemas.
es también posible que las acciones de un jugador
pueden afectar al real entorno del juego en sí. A
través de esta inuencia, el juego real en el que el 1.2. juegos estáticos y juegos de sis-
jugador está involucrado puede también cambiar. temas dinámicos
Luego, a través de tales cambios en el ambiente de
juego, los benecios en cuanto a las acciones de un Cualquier interacción con la toma de decisiones

jugador pueden también ser cambiado. agentes múltiples (jugadores) que tienen diferentes
intereses se denomina juego. Básicamente, la teo-
Además de las cuestiones que implican el efecto
ría de juegos investiga los criterios para el compor-
de una acción de jugador en el entorno del juego,
tamiento racional de todos los jugadores. En este
deseamos examinar la cuestión de la conexión entre
contexto, uno de los objetivos más importantes en
un jugador de función de pagos y el estado de ese
estos días es el uso de concepto de equilibrio de
jugador. (Usamos la palabra "Estado" que signi-
Nash para llevar a cabo el equilibrio análisis. Tal
ca aquí para propiedades internas generales de un
análisis de los equilibrios de los juegos ha produci-
jugador que puede cambiar, la condición real del ju-
do resultados considerables hasta la fecha, especial-
gador o el modelo interno del mundo exterior que el
mente para los juegos no cooperativos. Las teorías
jugador tiene.) Por ejemplo, considere un jugador
desarrolladas para esta clase de juegos también se
que participa en un concurso en varias ocasiones con
han ampliado para producir aún más resultados en
el mismo rival en un entorno de juego que no lo ha-
el análisis de los juegos cooperativos
ce cambiar con el tiempo. En este caso, la utilidad
Es indudable que este tipo de análisis de equili-
de las posibles acciones del jugador siempre sigue
brio es extremadamente ecaz, y que es indispensa-
siendo el ¾mismo? la evaluación del jugador de su
ble como una técnica teórica de base. Sin embargo,
posible acciones varían de acuerdo con los cambios
cuando pensamos en los grupos de la vida real de
en su interior ¾estado?
los organismos vivos o de fenómenos sociales, pa-
Además, nos gustaría tocar aquí el fundamental rece que hay ejemplos donde otros enfoques serían
punto de vista de la teoría de juegos tradicional con más ecaces. En particular, el cambio dinámico en
respecto a la situación mencionada anteriormente. lugar de equilibrio es inherente a un gran número
En tradición la teoría de juegos, una situación de de situaciones. Por ejemplo, en el mundo real no
este tipo se representa a veces por uno (grande) jue- es inusual que las comunicaciones y las interaccio-
go. Es decir, desde el presente hacia el futuro, todas nes mutuas entre individuos, como las estructuras
las posibles acciones de todos los jugadores en todos sociales imperantes, continuamente cambian de mo-
los puntos en el tiempo son tomadas en cuenta. Por do que una condición de equilibrio nal no es nunca
lo tanto es posible la bifurcación de patrones del alcanzada. No es apropiado para el tratamiento de
juego que se derivan con esta situación en un con- estos fenómenos como una transición sencilla hacia
junto que se representa como un enorme árbol de un equilibrio teórico condición (es decir, viéndolos
juego. De esta manera, podemos proyectar el curso como evoluciona los procesos de aprendizaje), ya
del tiempo en un juego estático y analizar su so- que el cálculo incompleto disponible potencia para
lución en la forma de un juego-árbol o una matriz los agentes individuales en algunas decisiones irra-
de juego. Estrategia aquí signica el plan de acción cionales que se hizo. Dar un ejemplo sencillo, un
para todos los puntos en el tiempo, y el análisis de punto de vista distinto de equilibrio de análisis es
una solución racional para un juego sólo es posi- claramente importante para la comprensión de la
ble cuando sabemos todas las posibilidades acerca naturaleza de la llamada evolución abierta.
de las acciones de todos los jugadores del pasado
En el pasado, la teoría de juegos evolutiva [10]
al futuro. Sin embargo, surge una importante pre-
ha ofrecido diversas hipótesis vericables y explica-
gunta aquí: ¾Siempre se toma nuestras decisiones
ciones acerca de la naturaleza de la evolución social
¾De este modo? Por otra parte, es incluso posible
y ecológica. Este tipo de análisis ha sugerido mu-
que hagamos una decisión de este tipo en el primer
chas e importantes teorías sobre la naturaleza del
lugar?
aprendizaje, la imitación, y patrimonio cultural /
Este tipo de problemas se consideraron prime- hereditario. En años más recientes, simulación por
ro por Rapoport [15] y Rashevsky [16]. Más tarde, ordenador del proceso evolutivo ha sido adoptada

3
en el estudio llamado vida articial. En este tipo forma en que los puntos de vista del jugador pue-
de investigación, el proceso general de la evolución de cambiar la situación completamente de utilidad
es tratado como un juego. Los juegos se resuelven de las posibles acciones. Incluso para los plátanos
mediante el uso de la toma de decisiones programa- del mismo tamaño, pensamientos tales como "este
das que representan los jugadores. El objetivo de plátano todavía puede crecer más", o "Probable-
este tipo de investigación es comprender el proceso mente este plátano ha dejado de crecer", o "ahora
general de evolución a través de experimentos de que es tan grande, las otras personas cercanas lo
computación. tomarán pronto ", la voluntad por sí mismos alte-

Ahora, en estos estudios sobre sistemas evoluti- ran la utilidad de la acción "comer plátanos". En

vos, los juegos adoptados no cambian con el tiempo, este punto, vamos a discutir con mayor detalle la

por denición. En otras palabras, las funciones de naturaleza de las posibles interacciones mutuas en-

evaluación de los jugadores en los juegos se man- tre las estrategias y el entorno del juego. Los juegos

tienen constantes. Ejemplos son juegos de un solo estáticos implican principalmente las estrategias de

disparo, al igual que el juego del halcón-paloma, y los jugadores individuales o de grupos de jugadores

también juegos como el dilema del prisionero itera- (en situaciones tales como la cooperación, traición,

do en la que el mismo juego se itera muchas veces. conspiración o co-evolución) con respecto a una de-

Debido a que los juegos por sí mismos en este caso nición de juego jo que persiste hasta que el juego

son de naturaleza estática, se Incluso se podría de- ha terminado. Tales juegos no se prestan a respon-

cir que una de las principales razones de la el éxito der a preguntas tales como "¾Qué efecto tienen el

de estos estudios es la representación "estática" de juego dinámico sobre la evolución de las estrate-

los juegos. Para mayor comodidad, en este trabajo, gias?. Por ejemplo, el entorno del juego puede ser

vamos referirse a esta forma de representación del oscilatorio o incluso caótico, y la evolución de las

juego como la estática de representación del juego. estrategias en estas circunstancias será muy dife-
rentes. Por supuesto que es También muy difícil de
Ciertamente, si pensamos en los fenómenos socia-
usar juegos estáticos para tratar de forma natural
les en el mundo real, hay muchos ejemplos que pue-
el problema complementario de cómo las acciones
den investigarse de manera muy ecaz en el marco
de un jugador puede producir la dinámica de juego.
previsto por representación del juego estático. Sin
Por ejemplo, si un jugador vive por la producción
embargo, en la otro parte, ejemplos de fenómenos
y el consumo de recursos en el entorno, no se pue-
que no pueden ser completamente analizado en es-
de determinar usando un juego estático Descriptivo
te marco también existen. Esto es debido a que el
porque hay estrategias que adoptar con el n para
entorno del juego del mundo real que en realidad
hacer la dinámica de tales ambientes productivos o
vivimos no es jo, y cambia con cada acción que se
para mantenerlos estables.
realiza dentro de una estrategia o cualquier cambio
El ejemplo más claro y sencillo que ilustra cómo
en el sistema de valor de evaluación utilizado por
las acciones de un jugador pueden cambiar un juego
un jugador.
en sí es la de efectos de retardo [19]. En el mundo
.En los juegos de la vida real, las interacciones
real que habitamos, nuestra racionalidad no puede
mutuas entre el entorno del juego y los jugadores
ser tan perfecta como la teoría de juegos requiere.
pueden tener un gran efecto. Por ejemplo, en sis-
De hecho, para los juegos que continuará a par-
temas de modelo de la vida real, el uso de una es-
tir del pasado en el futuro, podemos identicar los
trategia dada por un particular, el individuo puede
siguientes requisitos previos para un jugador para
causar cambios en el ambiente externo y en la ma-
tomar decisiones racionales.
triz de pagos del juego en sí. Promover, la matriz
1. El conocimiento perfecto de las reglas del jue-
de pagos local entre dos individuos puede cambiar
go.
dependiendo de la estrategia elegida por cualquiera
de posibles terceros. 2. La capacidad de enumerar todas las acciones
posibles, uno de los cuales el jugador puede elegir
Por otra parte, en los juegos de mundo real, la
en un punto dado a tiempo.
utilidad adjunta por un jugador para una deter-
3. La capacidad de identicar todas las posibles
minada estrategia puede cambiar de acuerdo al es-
situaciones que estas acciones generarían en el si-
tado actual del jugador. Para dar sólo un simple
guiente punto a tiempo.
ejemplo, la acción de comer un cultivo del plátano
en un árbol tiene bastante diferentes utilidades en 4. La capacidad de construir una representación

función del Estado actual del jugador con hambre. completa del partido desde el pasado hasta el futu-

Esto se hace más complicado cuando además tene- ro como una ramicación diagrama (por ejemplo,

mos en cuenta la forma que el jugador ve el estado representada en la extensa formar).

del plátano y la forma en que el jugador considera 5. La capacidad de analizar completamente este
los estados de los otros jugadores cercanos. Aquí, la (típicamente) enorme árbol de juego y derivar un

4
equilibrio. 2.1. Un ejemplo de un juego de sis-

Para aún muy pequeños juegos, el cumplimiento


temas dinámicos
de estos requisitos previos es imposible en la prác- El dilema de los leñadores (LD) de juego. Hay
tica. (Véase la discusión de racionalidad limitada una colina boscosa, donde viven varios leñadores.
[2,21] que tocamos brevemente más tarde.) Inclu- Los leñadores cortar árboles para ganarse la vida.
so para el juego de ajedrez, donde la construcción Ellos pueden maximizar su benecio colectivo si
del proceso óptimo de la inferencia es la principal cooperan al esperar hasta que los árboles se han
estratégica objetivo, es imposible llevar a cabo prác- desarrollado completamente antes de cortarlos, y
ticamente decisión hacer de la manera anterior. (O, compartir las ganancias. Sin embargo, el leñador
si fuera posible, el resultado del concurso se cono- que derriba un dado árbol antes que los demás lle-
cerá desde el principio, por lo que no habría ningún va todo el benecio para ese árbol. Así, cada leña-
signicado en jugar el juego [23].) dor puede maximizar su benecio personal por la
tala de árboles antes. Si todos los leñadores ello,
En los juegos del mundo real, los jugadores toman
sin embargo, la colina irá al descubierto, y al nal
decisiones sobre la base de las conclusiones obteni-
habrá ningún benecio. Estas circunstancias inevi-
das mediante el examen tan grande un juego local,
tablemente traerán consigo un dilema.
ya que prácticamente pueden manejar. Sin embar-
go, en un juego que puede cambiar con el tiempo, Este juego LD se puede categorizar como la re-

la acción que parece óptima en el entorno actual presentación el dilema social que surge en relación

no puede sea óptima cuando el juego se ve desde con la problema de la formación y el mantenimiento

un largo plazo perspectiva. Por ejemplo, median- de la cooperación en una sociedad, que a menudo

te la aplicación de la restricción en el punto de la está representado por el cuento clásico "la trage-

partida actual, es posible inuenciar el entorno del dia de los comunes", presentado por Hardin [7]. Su

juego de un futuro lejano que se ofrece benecios estructura es similar a la lógica del modelo dilema

muy ricos. De esta manera, la presente decisión de del prisionero si se considera a nivel de un juego es-

un jugador puede tener un efecto en el juego futu- tático. En otras palabras, se puede representar en

ro ambiente; esto es lo que llamamos el "efecto de forma de dilema una versión de n personas prisio-

retardo". Es evidente que los modelos estáticos de neros si lo proyectamos en juegos estáticos.

juego no pueden tratar con sistemas tales propieda- Aquí observamos varias diferencias importantes

des. Hay una diferencia fundamental entre las dos en modelado dilema social entre el leñador de dile-

estrategias "cooperan si el oponente ha cooperado ma y el dilema de los prisioneros de n personas. Los

por última vez, de lo contrario aspirar a una alta dinámica de los tamaños de los árboles deben ser

rentabilidad " y "adquirir una alta rentabilidad al expresados explícitamente en el dilema de los leña-

forzar el juego en sí para cambiar". dores. El rendimiento de un árbol dado, y por lo


tanto la ganancia de los leñadores, diere de acuer-
Se introduce el modelo de lo que llamamos mode- do con el momento en que se hizo caer el árbol. Los
lo dinámico de los sistemas de juego para manejar benecios tienen una distribución continua, porque
los tipos de situaciones discutidas anteriormente. la posible producción de un árbol ha de variación
La descripción más sencillo de este modelo es que continua valor. Así, las acciones de los leñadores
representa un juego como un sistema dinámico en no pueden denitivamente etiquetar como "coope-
el que el estado del entorno del juego, los estados ración" o "traición". Además, la decisión de hoy de
de todos los jugadores, y los jugadores sea posible un leñador puede afectar el futuro entorno de juego
acciones que varían en el tiempo, y todos ellos se a través del crecimiento de un árbol.
describen por variables dinámicas.

2.2. El concepto de juegos de siste-


mas dinámicos

En un juego de DS, los jugadores viven en un


2. Descripción general de los entorno de juego seguro y siempre tienen varias ac-
ciones posibles de que se puede tomar. La dinámica
sistemas dinámicos modelo
del juego, g, se compone de la siguiendo tres reglas
de juego del sistema que dene:

1. Los estados de los alrededores de los jugadores


En esta sección, demostramos el concepto básico (que llaman al "entorno de juego"), x, y los
del modelo de juego DS y dar una formulación de la estados de todos los jugadores, y, cambian de
misma. Primero, Consideremos un juego de modelo. acuerdo a una ley natural.

5
2. Los jugadores toman decisiones de acuerdo con el juego natural, (Tabla 1). El conjunto se compone
su propia decisión de los mecanismos de toma, de n jugadores, también llamados los tomadores de
f, al referirse tanto los estados de los alrededo- decisiones, y (Tabla 1) es compuesta de cuantica-
res de los jugadores y de todos los jugadores dores que pueden cambiar de acuerdo con la
(incluyendo a uno mismo).

3. . Cambio en el entorno del juego y las acciones


de los jugadores que afectan a los estados de
los jugadores.

Los jugadores llevan a cabo acciones en varias oca-


siones, y en el proceso, el sistema evoluciona de
acuerdo a estas reglas en general. El uso de la for-
mulación descrita en estas reglas, en lugar de en
base a matrices de pago algebraicas, DS modelo de
juego puede describir de manera explícita no sólo
juego con interacciones similares, sino también la
dinámica observada en el entorno del juego y en-
tre los jugadores. En total la dinámica de juego es
descrito por el mapa, g, y en la toma de decisiones
de los jugadores, f, se incrusta en g. La dinámica se
expresa ya sea de forma discreta en el tiempo, como
las asignaciones que se repiten o de forma continua
en el tiempo, por ecuaciones diferenciales.
En el juego de DS, capacidad de razonamiento
la dinámica, pero no pertenecen a la clase de fa-
de un jugador es inevitablemente limitado. Como
bricantes de decision (por ejemplo, sal, agua, ali-
se indica en la Sección 1.2, los jugadores en el juego
mentos, combustible). Las variables básicas en el
de DS no pueden examinar todos los posibles desa-
mundo de juegos DS son el estado del entorno
rrollos en un juego como un enorme diagrama de ra-
del juego, x , y el estado de lajugadores, y =
micación ni calcular un equilibrio de este enorme
y 1 , y 2 , . . . y n (tabla 2).
diagrama antes de tomar acción. Al representar la
En nuestro juego de DS, x y y i (iN )denotar
cadena de relaciones causales como un gran juego,
vectores de múltiples componentes. Por ejem-
el análisis de la teoría de juegos tradicionales desde
plo, si consideramos sal, agua, combustible
el punto de vista estático es hecho posible. Por otro
y alimentos en el entorno del juego que
lado, el cálculo de Tales diagramas de ramicación
estudiamos, x está representado =
por x
es imposible en el DS juego, ya que todos los esta-
(xsal , xagua , xcombustible , xalimentos ). La situación es
dos están representados por continuo variables, y la i 11
similar para el estado de jugador i (iN ), i.e. , y .
dinámica no lineal de estados de los jugadores y el
medio ambiente son mutuamente inuenciado.
En cada paso de tiempo, un juego en el sentido 2.4. Dinámica del sistema
clásico de la teoría de juegos se realiza, en cierto gra-
Expresamos la dinámica del juego de DS por un
do, donde los jugadores deciden sus acciones dentro
mapa (Aunque también es fácil de usar diferencia-
del juego en ese instante. En otras palabras, las ga-
ción de ecuaciones). Una de las ventajas de la repre-
nancias de cada jugador para todas las acciones po-
sentación de la dinámica en una forma discreta en
sibles de todos los jugadores pueden determinarse
el tiempo es la facilidad de comparación con jue-
en cada punto. Así, cada jugador tiene una especie
gos iterados o repetidos, tales como la dilema del
de función de pagos en cada movimiento. Sin em-
prisionero iteradas '[3].
bargo, esta función de pagos varía con el tiempo, y
En el juego de DS, xe y varían con el tiempo de
su cambio depende de las acciones de los jugadores.
acuerdo a la dinámica establecidos en el sistema.
Nuestro juego de DS permite cambios dinámicos de
1 1 por ejemplo, y i podria ser yi =
juegos en sí, en este sentido, en este cambio y ac- 
yestado−nutricional , yestado−monetario , yf atiga−f isica , . . .
ciones de los jugadores son inseparables. i
Sin embargo, cualquier y (iunciertoconjuntodejugadoresN )que
aparece en este documento es una simple variable de una

2.3. Componentes del juego de los sola dimensión.Es decir, no nos ocupamos de, por ejemplo,
la relación entre la dinámica de las diferentes variables
sistemas dinámicos de un jugador. Y así, todos los yi 's que aparece en este
documento puede ser considerado como y1i .Corresponde a
Los componentes básicos del mundo de juegos DS los futuros estudios y i quese implementa como un vector en
son el conjunto de jugadores, N = {1, 2 . . . , n}, y el marco juego DS.

6
Denotando el tiempo por t , la dinámica del juego, Los juego DS es caracterizada por g y F. Aquí,
g, se representa como sigue: el juego como un sistema dinámico es representado
por embed-ding de los jugadores proceso de toma
de decisiones en la dinámica f del sistema g.
g : (x (t) , y (t)) → (x (t + 1) , y (t + 1)) . (1)

Al igual que en el mundo real, el sistema que debe 3. La discusión del modelo de
tener en cuenta los cambios de manera autónoma,
incluso sin acciones de los jugadores. Llamamos es-
juego de los sistemas dinámicos
ta propiedad la ley natural del sistema. Una deci-
Aquí nos gustaría discutir un marco de nuestro
sión hecha por un jugador también puede afectar el
modelo de juego de los sistemas dinámicos se des-
entorno del juego, los otros jugadores, y él mismo.
cribe en la sección anterior. Primero discutimos los
En otras palabras, X e Y se puede cambiar tanto
méritos de la introducción de gramo y F para la
por el derecho natural y el efecto de las acciones
dinámica de juegos. También discutimos la racio-
de los jugadores, a. Por lo tanto g consiste en una
nalidad limitada y la iterada dilema del prisionero
la ley natural, u, y el efecto de las acciones de los
para la comparación. Analizamos a continuación las
jugadores, v:
propiedades necesarias que los jugadores deben te-
u : (x(t).y(t)) → (x(t), , y(t), )........................(2)
ner en un entorno de juego dinámico, en referencia
v : (x(t), , y(t), , a(t)) → (x(t + 1), y(t + 1)), .....(3)
a Rössler de modelo optimizador autónoma de un
g = vou.....................................................(4)
articial cerebro.
Aquí hemos adoptado el orden de u y v, como
en Eq. (4), para incluir sucesivamente los efectos
3.1. La racionalidad limitada, el dilema de los
sobre el movimiento del juego producidos por la
presos que se repiten y sistemas dinámicos
acciones de los jugadores y otras causas. Utilizar
del ordenamiento inverso es igual de válido El objetivo fundamental de este trabajo es
v : (x(t), y(t), a(t)) → la situación en que los tomadores de decisiones
(x(t), , y(t), ), ..................(5) interactúan entre sí, bajo diversas condiciones
u : (x(t), , y(t),´ ) → (x(t + 1), y(t + 1)), ...........(6) variables de un entorno dinámico, como en el
g = uov......................................................(7) mundo en que vivimos. Aquí, es importante en-
tender los mecanismos de desarrollo o evolución
de sociedades, las comunicaciones emergentes, y
2.5. Decisión función de decisio-
el comportamiento de un jugador que se pueden
nes, f observar en esta situación. A n de que compren-
damos estos mecanismos, qué tipo de actitud se
El jugador i se reere al estado del entorno del debe ¾tomar?
y −i 2
2
juego x, que de los otros jugadores y la de a
sí mismo en la determinación de la acción ai que Desde el punto de vista de la teoría de juegos, se
deben tomarse, basada en su propio mecanismo de podría argumentar que los análisis de situaciones
toma de decisiones fi .Llamamos esta función la similares al juego han sido ya completados. Por
toma de decisiones. La función fi da reproductor ejemplo, ya se ha demostrado que existen mejores
de juicio de valor i de todas las actividades posi- estrategias para dos jugadores, jugar al ajedrez,
bles, mientras que la función se puede cambiar a y que los resultados del juego se pueden determi-
través de la evolución o un proceso de aprendizaje. nados antes de jugar si tanto los dos jugadores
En otras palabras, la función de representa la per- tienen la racionalidad completa. Además, se ha
sonalidad del jugador i. El funcionamiento de fI se demostrado que el comportamiento racional en el
da. nito iterado juego del dilema del prisionero (IPD)
i i
f : (x(t), y(t)) → a (t) (in).........................(8) siempre traiciona. El problema aquí, sin embargo,
Nosotros representamos el conjunto de toma de es que estas soluciones teóricamente óptimas a
decisiones de todos los jugadores funciona como f= menudo dieren de la forma en que las personas se
 1 2 n

f , f , . . . f y la operación de f como sigue: 3 3 comportan realmente en tales situaciones. El origen
f : (x (t) , y (t)) → a (t) ..............................(9) de esta diferencia parece radicar en el supuesto
básico de la teoría de juegos, la racionalidad de los
jugadores. La racionalidad de la teoría de juegos
2 y i ≡ (y 1 , y 2 , . . . y i−1 , y i−2 , . . . y n ).
por lo general requiere demasiada capacidad. Por
3 Precisamente hablando,(x (t) , y (t))debe ser escrita co-
ejemplo, las siguientes suposiciones se hacen a
mo (x (t), , y (t), )porque usamos la ecuación (4), pero usa-
mos, (x (t) , y (t)) en esta denición de f para la legibilidad menudo en la teoría de juegos modelos.
y simplicidad.

7
Los jugadores que participan en un juego son Tabla 3
todos racional los tomadores de decisiones. Matriz de pagos utilizado por Dresher y Flood

Las reglas del juego y la racionalidad de todos


los jugadores son de conocimiento común [1]
entre todos jugadores. Bajo estos supuestos,
la búsqueda de la teórica solución para la
determinación de los jugadores racional se
convierte en el objetivo principal, y con estos
supuestos básicos de la construcción se han
hecho teorías referentes a las soluciones posi-
bles. Sin embargo, un problema que confronta
el jugador es la incapacidad para determinar
qué comportamiento racional exactamente
debe ser. Por ejemplo, en un juego tal como
el ajedrez (para dos personas con suma
cero), podemos percibir la existencia de la
mejor estrategia, pero esto no signica que
podamos conocer concretamente cuál es la
mejor estrategia. Una situación similar ocurre
en otros juegos también. Esta característica
ha sido discutido por Simon [21], que se
rerió a eso como racionalidad limitada. La matriz de pagos utilizado en este experimento se mues-

tra en la Tabla 3.
5
Este factor de complicación conduce a cierta
dicultad en la aplicación de la teoría de El dilema del prisionero se repitió 100 veces con
juegos en situaciones reales en el que la po- dos jugadores en este experimento. En este juego,
tencia de cálculo de los jugadores es encerrado. el equilibrio de Nash es (jugador 1, jugador 2) =
(defecto, defecto) si los jugadores reconocen cada
paso de este experimento como un juego aislado,
Los problemas que implican esta racionalidad no y también la es 100 veces de repetición de (defec-
son connados a la capacidad de cálculo de un ju- to, defecto) si que consideran todo el experimento
gador. Incluso si un jugador puede calcular fácil- como un juego repetido. En cualquier caso, la solu-
mente la solución racional, no es inusual para que ción teórica para ambos de los jugadores es siempre
se comporte de una manera contradictoria con a que defecto. Sin embargo, las exposiciones reales expe-
racionalmente siguiendo el resultado de este cálcu- rimentaron un comportamiento mucho más coope-
lo. Por ejemplo, en el juego IPD nito, la estrate- rativo que la predicha teóricamente.
gia de equilibrio de Nash para ambos jugadores, es
Además de los experimentos con (iterado) el di-
desertar siempre (traicionar). En este caso, no es
lema de los prisioneros, se han realizado una serie
necesario que los jugadores tienen una enorme ca-
de experimentos llevado a cabo utilizando personas
pacidad de cálculo para determinar la solución co-
reales. También en estos experimentos, la gente a
rrecta por inducción. Sin embargo, como se muestra
menudo se comportaron de manera muy diferen-
por algunos experimentos relacionados con el IPD,
te de la manera predicha teóricamente, incluso en
tal comportamiento no siempre es observado. Como
juegos simples donde los jugadores necesitan poca
un ejemplo famoso, se muestra aquí el experimento
deducción para encontrar los equilibrios de Nash
llevado a cabo por Melvin Dresher y Merrill Flood
(por ejemplo, el capítulo 5 de donde los participan-
[5]. (Este experimento se llevó a cabo en 1950 donde
tes se comportan de manera muy diferente [4]). Lo
Tucker acuñó la frase dilema de los presos.
4 )
anterior puede considerarse como la consecuencia

4 natural ya que no podemos tener la racionalidad


La historia del llamado dilema del prisionero es lo que
Tucker presento para dramatizar el juego usado en este ex-
perfecta prevista, de la teoría de juegos. Entonces,
perimento. ¾cómo deberíamos nosotros desarrollar la teoría de
juegos para tratar frente a los jugadores limitados
¾racionalidad?

Se puede decir en los últimos años que la inves-


tigación con respecto racionalidad limitada se ha
iniciado [2] y la racionalidad limitada sigue siendo
uno de los temas más calientes de la teoría de jue-
gos. En una investigación con respecto a la IPD,

8
ha habido varias aproximaciones al problema de la entender las estructuras de los jugadores y inves-
racionalidad limitada. Una de ellas utiliza simula- tigar los comportamientos de los jugadores en diver-
ciones por ordenador para sas condiciones, estableciendo sus habilidades como
nos gusta. Otra ventaja de la utilización de los or-
5 La matriz de pagos se hizo asimétrica. Cuando los denadores es que permiten la investigación de cola
jugadores seleccionen (1 jugador, el jugador 2) = (defecto,
de- de un gran sistema de juegos y experimentos en
defecto) o (cooperar, cooperar) en el juego del dilema del
prisionero con un pago de matriz simétrica, no podemos relación con la evolución de los jugadores o el apren-
negar la posibilidad de que se seleccionen las acciones dizaje también son posibles, por ejemplo, mediante
simétricas basado en la sensación de que el mismo benecio
la introducción de los algoritmos de la mutación en
mutuo ganado es la ganancia de equilibrio y la solución
los programas de los jugadores . Una ventaja de
racional, tanto para el jugadores.
usar ordenadores para estudiar la comportamiento
de juegos es que en este caso, se construye un ju-
gador como un programa de ordenador, de manera
que podamos plenamente entender las estructuras
de los jugadores e investigar comportamientos de
los jugadores en diversas condiciones mediante el
establecimiento de sus habilidades como nos gusta.
Otra ventaja de la utilización de los ordenadores es
que permiten a la detallada investigación de un gran
sistema de juegos, y experimentos con respecto a la
evolución o el aprendizaje de los jugadores también
son posibles, por ejemplo, mediante la introducción
de mutación algoritmos en los programas de los ju-
gadores. Por ejemplo, simulaciones por ordenador
han sido llevadas a cabo por en representación de
los jugadores por los autómatas nitos [13,20]. Eso
se ha demostrado en estos estudios que la coope-
ración se realiza en el IPD con un número nito
de iteraciones, si la memoria de los jugadores son
incompletos. En un sentido, estos resultados son si-
milares a los comportamientos cooperativos a me-
nudo vemos en la realidad en situaciones similares
a la IPD.

En otra aproximación al problema racionalidad


limitada, un IPD nito es considerado como una
aproximación de un innito IPD y se busca el equi-
librio de la IPD innita. Este enfoque puede ser
entendido más concretamente a la luz de los co-
mentarios de Nash con respecto el experimento por
Dresher y Flood se ha descrito anteriormente. Po-
demos resumir dos de los temas tratados por Nash
como sigue. En primer lugar, Nash hace hincapié
en que cuando el dilema del prisionero se repite 100
veces, debemos considerarlo como un gran juego
multi-etapa, no sólo como repeticiones de un jue-
go aislado. Nash también señala que un juego itera
100 veces es un juego nito pero es demasiado largo
para una persona común para determinar la teoría
del equilibrio mediante la aplicación de la induc-
ción hacia atrás desde el extremo de la repetición.
La persona puede hacer una decisión, sintiendo la
iteración 100 veces sea innita uno. En este caso,
debemos aplicar el teórico equilibrio de la m innito
IPD a los resultados de la etapa 100 del experimen-
to IPD.

Si las armaciones de Nash son correctos, la rea-

9
lización de la cooperación en la etapa 100 del IPD Es lo que nosotros tenemos, sin embargo siempre
poder ser racionalizado Teóricamente. los fondos se comportan de esta manera? No ¾Hay casos en
teoricos de esta racionalización de cooperación es los que esperamos a que crezcan los árboles? No
el denominado teorema de Folk, que es una teoría hay casos en los que crecen y los árboles cortados
básica para los juegos innitamente repetidos. El alternativamente? .
teorema de Folk establece que un juego de super G Esta situación es similar a la de los experimentos
∞, el cual es una repetición innita de un juego G, IPD descritos anteriormente donde los comporta-
tiene puntos de equilibrios de Nash que satisfagan mientos de los jugadores se encuentran a veces en
las siguientes condiciones.
6 contradicción con la conclusión teórica que asume la
1. Cada uno de estos puntos también se puede racionalidad completa de un jugador. Entonces, si
realizar en el juego G por la combinación de las vamos a suponer que los jugadores, inevitablemen-
estrategias de los jugadores.
7 En otras palabras, te, han racionalizado limitadamente como nosotros
existe cada punto dentro del denominado conjunto mismos, ¾qué tipo de enfoque es posible en el juego
factible del juego G. del dilema de los leñadores?
2. La ganancia media para cada jugador en cada El juego del dilema de los leñadores puede ser
uno de esos puntos es mayor que la recompensa considerado como un tipo de multi-etapa del juego
más pequeña asegurada por la mejor respuesta para Si se describe en tiempo discreto, a pesar de una
cada jugador en G. En otras palabras, cada jugador etapa del juego repetido es generalmente llamado
debe ser individualmente racional. un juego de escenario. Eso es imposible, sin embar-


Los estados de cooperación realizadas en IPD uti- go,para aplicar una cadena lógica de los jugadores


lizando estrategias tales como "ojo por ojo", al pa- [jugadores acotada racionalidad] [aproximación
recer las condiciones antes mencionadas; por lo tan- para un iterado juego innitp] [El teorema de
to, se puede concluir que estos estados son los equi- Folk] para el dilema de los leñadores, porque el teo-
librios cooperativos. Si se asume que cuando nos rema es aplicado solamente para juegos que impli-
encontramos con una situación similar a la ENI, (i) can una iteración de un solo juego de etapa, invaria-
reconocemos eso como un innito IPD juego, y (ii) ble, mientras que el juego de DS cambia de forma
nosotros determinar nuestras acciones sobre la ba- dinámica en hora.
se de un cálculo del equilibrio de un juego innita- Nosotros hemos formulado el marco de la sección
mente reiterado, esta combinación de racionalidad 2, el juego de los sistemas dinámicos. Con el n de
limitada de los jugadores y el teorema de Folk es hacer frente a los problemas mencionados anterior-
bastante razonable. En este punto, volvamos nues- mente, el modelo de juego de DS es bastante simple,
tra atención a los juegos dinámicos. Tomemos, por con dos características importantes, las dinámicas
ejemplo, el juego del dilema de leñadores, que se de juego y de toma de decisiones de los jugadores
introdujo en la Sección 2.1. En el juego del dilema mecanismos incorporados en la dinámica del juego.
de los leñadores, el comportamiento de la tala de Aplicando ing este marco, podemos considerar el
un árbol ofrece a los jugadores un cierto grado de comportamiento de los jugadores con racionalidad
benecio, y por lo tanto esta acción son las maneras limitada y la dinámica resultantes del juego en sí
más rentables que el comportamiento de hacer nada a través de los dos resultados experimentales y un
o esperar. Si los jugadores son racionales, el equi- análisis del modelo
librio de este juego se caracteriza por la situación
en la que todos los jugadores continúan cortando
3.2. Autónoma optimizador
árboles para siempre, mientras que hay poca ne-
cesidad de potencia computacional para identicar En el modelo de juego de DS, formulado en la
este equilibrio. sección 2, las variables x , y , y una (ver Tabla
2) cambian con el tiempo después de g y f . Por
6 Más estrictamente hablando, este equilibrio de Nash se otra parte, f cambios en una escala de tiempo más
realiza sólo cuando el factor de ganancia de descuento de los
jugadores del G ∞ , que descuenta los pagos de las etapas lento de la evolución o de aprendizaje. El concepto
futuras, se hace lo sucientemente cerca del límite superior 1.0. básico de esta modelo es relacionado al autónomo
En este caso, el pago normal es idéntico a la ganancia media
en todas las etapas. Fundenberg y Tirole [6] han discutido el optimizador, introducido por Rössler como un
teorema de Folk en detalle. 7 Estrategia de cada uno puede modelo para sistemas biológicos complejos (en
ser la estrategia mixta (estadística), por ejemplo, si hay dos
estrategias puras A y B, la estrategia de 20 % estrategia A plus particular para el cerebro), aunque el juego de DS
80 % estrategia B es posible. puede hacer su camino desde el punto de vista de la
teoría de juegos a la de los sistemas dinámicos. Por
lo tanto, el conceptos de juego teoría, tal como el
jugador y la recompensa (por cada acción posible),
se explícitamente introducidos en el juego de DS.
Como resultado, podemos saber el corto alcance

10
y de largo alcance racionalidad en juegos de DS. dinámicos. Esto, sin embargo, no es un enfoque útil
Esto sugiere la posible superioridad de los juegos cuando estamos interesados en la función o el com-
de DS a juegos tradicionales. Aquí consideramos la portamiento de un optimizador de sí mismo porque
DS juego modelo en relación al modelo de Rössler, conocer la dinámica no necesariamente resulta una
en particular se centra en la consideración de los comprensión de la optimización, y extraer el com-
jugadores estados y la toma de decisiones función. portamiento de los optimizadores de la dinámica es
en realidad poco práctico [18].

Cuando se acoplan múltiples optimizadores, otro


problema debe ser considerado [19]. En este caso,
información sobre la conducta de un optimizador
particular, actúa como entrada para otros optimi-
zadores del medio ambiente. Esta es la situación
que nos referimos como un juego, y aquí existe la
característica común al modelo de autónomo opti-
mizadores y el modelo de juego de DS, donde los
jugadores se corresponden con los optimizadores.
Optimizadores se ven afectados por el medio am-
biente, que es tratado como una variable, y, llevar
a cabo esta acción, por los estados de otros optimi-
zadores, mientras que el estado de un optimizador
actúa como una señal para los demás. Mediante el
uso de todas las señales como entradas, los optimi-
zadores de determinar su siguiente acción y también
afectan al ambiente. Entre las estrechas relaciones
entre los optimizadores autónomas y el juego de DS,
centramos nuestra discusión sobre el papel de la va-
Fig1. (a) La gura conceptual de un jugador. Un jugador
riable de estado, que también se utiliza en el juego
tiene una función de toma de decisiones, f, que utiliza el es-
tado del entorno del juego, x, y estados de los jugadores ', Y, de DS.
como información de entrada y determina la acción del juga- En la mayoría de los experimentos con modelos
dor, una, como una salida. Una vez afecta a x. Los cambios
de juegos teóricos que emplean juegos iterados, un
en la función f en respuesta a la evolución o el aprendizaje y
maximiza o minimiza) (una especie de optimización funcio- jugador por lo general se reere a la historia de las
nal. (b) un mapa clave de los sistemas dinámicos del juego. acciones pasadas de todos los jugadores con el n
Cuando los jugadores están acoplados a través de la entrada
de determinar su siguiente acción. En algunos otros
del medio ambiente de todo el mundo, la situación se con-
casos, un jugador se reere a los benecios que los
vierte en un juego. Cada función de la toma de decisiones se
reere a estados del medio ambiente y los jugadores (inclui- jugadores han recibido en los juegos anteriores. Por
do él mismo) como entradas. Las acciones de los jugadores el contrario, en el juego de DS, un jugador se reere
a continuación, afectan el entorno del juego. Así la dinámica
a los estados del entorno del juego X y los estados
de la interacción juego similar pueden representarse mejor
por sistemas de juegos dinámicos que por modelos de juego
de los jugadores (incluyendo propia de un estado)
teóricos que utilizan matrices de pago algebraicas. (Más pre- y para determinar su comportamiento. La decisión
cisamente, y; a; f en (a) se puede reescribirse como y1; a1; MAK- función fi del jugador i proyectos x e y en
f1 , respectivamente, por ver (a) desde el punto de vista de
la acción del jugador i , un i . (Un mapa de teclado
una sola persona modelo de juego de DS.)
del juego DS se muestra en la Fig. 1 (b)).
Los juegos de DS son descritos por la dinámica
del sistema de g y la función de toma de decisiones Aunque la información se hace referencia en la

f , que también corresponden al concepto de mundo toma de decisiones para esta modelo es no basado

de los optimizadores autónomos '. Es decir, el juego en el pasado comportamiento, pero los estados

de DS se compone de dos clases inuyendo en cada actuales, la información de la historia pasada puede

uno: el dinámico sistema de juego y los jugadores ser que se incrustan en X y Y si los jugadores

(el mapa de teclado de un jugador se muestra en la evolucionan (aprender) y se adaptan al entorno

Fig. 1 (a)). variable, porque la ley natural (Sección 2.4) del

Optimizadores Autónomas son una clase de sis- juego esta completamente dada desde el principio

temas que de forma autónoma tratar a maximizar en este modelo.

(o minimizar) un cierta funcional que se genera por


el propio sistema [17]. Optimizadores son una sub- En concreto, podemos obtener información
clase de los sistemas dinámicos, y es por lo tanto teóricamente histórica pasada en cierta medida por
posible a describir el todo mundo, INCLUYENDO saber x e y dentro del límite de la precisión de los
los optimizadores de sí mismos, como los sistemas parámetros en f que utilizan X y Y como insumos.

11
(Tenga en cuenta que la dinámica y los parámetros F yo es la estructura interna del jugador e in-
de nuestro modelo de juego de DS toman valores visible para los demas que se implementa me-
numéricos reales.) La forma de f es renado como diante mecanismos para juzgar. Determina có-
se obtiene experiencia adicional. Por lo tanto las mo se reconoce el estado de fuera de objetos
experiencias pasadas se pueden incrustar en f . (el otros y el medio ambiente) y de él mis-
mo. El jugador k con el estado y k se reere
Como un ejemplo muy sencillo, consideremos el al jugador i 's estado y i , y toma su decisión.
siguiente conjunto de circunstancias: De hecho, las declaraciones "que parece estar
perdidos en sus pensamientos" y "parece estar
1. Las Manzanas que estaban en un plato han
enojado" son ambos descritos en f k (y K , y
desaparecido durante un corto período de tiem-
i ) . Como resultado, el jugador k toma una
po, mientras que yo no estaba viendo ( x ).
decisión como "nos dejó dejar jugador i por
sí sola, que se ha perdido en sus pensamientos
2. I (jugador i ) Ahora estoy muy hambriento (Y
"o" vamos a apaciguamos jugador i , quien es
i ) .
enojado". aquí nosotros no podemos conside-
3. Por otra parte, las expresiones faciales de las rar aparte del mecanismo de toma de cómo el
personas que se sientan a mi lado indican que jugador toma i se observa el estado del jugador
son muy satisfactorios (y -i ) . k . Es decir, desde el jugador k punto de vista,
y i es el estado basado en la expresión externa
Entonces puedo adivinar que las otras personas
pura del jugador i , mientras que cuando fk se
tienen que haber comido las manzanas. Si la
aplica a (Y i , y k ) , que es el estado del juga-
habitación es un sistema cerrado, la inferencia se
dor i como me imagino que sea. (Rössler [19]
hace aún más válida. Puede tomar venganza si
ha señalado la posibilidad de que el estudio de
mi decisión de hacer la función F yo ha sido su-
los optimizadores autónomas junto conducirá
cientemente capacitada para analizar la situación.
a una comprensión del desarrollo del lenguaje
Actualmente, los experimentos llevados a cabo en
humano, especialmente el uso y comprensión
este estudio muestran que el más sosticado sea
del pronombre personal "yo ".)
el modo de f referencia 's de x y y son, se pueden
observar los comportamientos más avanzados. Ahora consideramos brevemente la relevancia de es-
ta discusión que el modelo para el dilema de los
El signicado de la palabra "estado" tiende a ser leñadores. En teoría, la mejor estrategia puede ser
algo cuando decimos sobre el estado de un juga- siempre a talar el árbol más grande en cada punto
dor. Sobre todo cuando nos referimos al estado de en el tiempo en este juego, aunque esta estrategia
otra persona, su signicado inevitablemente implica solamente considera el tamaño de los árboles pero
un juicio de valor. Cuando nos jamos en la expre- no a los estados de los jugadores. Desde el punto de
sión facial de otra persona, nuestra evaluación de vista del juego de DS, sin embargo, los estados de
cómo la persona se ve, por ejemplo, "que parece los jugadores a veces juegan un papel importante.
estar perdido en sus pensamientos", o "que pare- La evaluación de la acción de cortar un árbol de-
ce estar enfadado", pueden variar de acuerdo con pende de si yo no estoy en un estado satisfactorio
nuestras experiencias pasadas y nuestra actual es- y si el siguiente jugador parece ser satisfecho. En
tado mental. Esta situación se puede expresar con realidad, el efecto de retardo antes mencionado se
más detalle con la terminología del juego DS como basa en parte en la evaluación de los estados.
sigue:

Y i es un estado observable por otros jugado- 4. Juego del dilema leñadores


res, y que actúa como una señal para ellos. 8
(Corresponde a la estado en un optimizador Como una aplicación del marco de juego de DS,
autónoma.) se presentan en este documento el juego del dilema
leñadores (LD), cuyo contorno se da en la Sección

8 2.1. En esta sección, se explican el modelo del juego


Nota aquí que lo que pertenece al jugador i en el juego
de DS es y i y f i . de LD y el procedimiento concreto de su experimen-
to.

12
1. Mundo del juego, la ecología de la misma estrategia. A lo largo de todos los experi-

los leñadores , juego del dilema . mentos en este documento, los parámetros s y h se

En el juego mundo de el LD juego, ahí son varias establecen como s = 10 y h = 60 .


colinas boscosas en las que viven los leñadores. Su-
pongamos que los leñadores en la población se pue- 4.1.1. Leñador especies
den clasicar en especies S y el número de colinas
es h. Los leñadores que pertenecen a una particu- Los atributos de las especies de leñador i incluyen

ˆ
lar especie, tienen que seguir la misma estrategia, y los siguientes:
fi
ˆ
adoptar el mismo método de toma de decisiones. un decisión función de desiciones,

Cada leñador selecciona una colina favorita para una variable de la aptitud, la aptitud i .

vivir. Competir o cooperar con otros leñadores que


han seleccionado la misma colina, se extraen árbo- 4.1.2. La colina
les que crecen en el tiempo. Por lo tanto, un leñador
La colina es la etapa del juego del dilema de los
de la población se convierte en un jugador en una

ˆ
leñadores y se compone de los siguientes:
colina y juega el juego LD allí. Cada juego en una
colina está completamente aislado de los juegos en El conjunto de jugadores:
N = {1, 2, . . . n}
las otras colinas, es decir, los leñadores en una co-
lina particular no tienen idea de cómo los juegos se ˆ El conjunto de los recursos:
E = {1, 2, · · · M }
juegan en otras colinas.

2. La colina, el lugar donde se juega ˆ Una variable de tiempo, cuyo valor indica el

el juego de LD . número redondo:


(t = 1, 2, . . . , T ).
Denotemos el número de árboles en cada coli-
Dentro del marco general del juego de DS, un
na por m , y la de los leñadores por n . Ahora, n
leñador en una colina se considera un jugador y
leñadores competirán por m árboles y se cortaran
un árbol en una colina que se considera un recur-
en maderas. Varios leñadores de la misma especie
so. Nosotros usamos estos términos en la siguiente,
pueden vivir en la misma colina. Estos n jugadores
aunque utilicemos leña y el árbol al hacer hincapié
jugar en varias ocasiones. A la conclusión del juego
en puntos especícos del dilema de los leñadores. A
(cuando todos los jugadores han llegado a t=T ),
lo largo de los experimentos en este documento, el
promedio de cada jugador. Esto da el estado físico
parámetro T es comúnmente ajustado a 400, que es
de cada jugador.
también la vida de cada uno de leñador.

4.1. Mundo del juego: el ecosis- 4.1.3. Trae un leñador de la colina de

tema del dilema de los leñadores la población

Cada leñador en el población al azar selecciona


En esta sección, se explica el ecosistema dilema
una colina, va ahí, y obras de teatro el LD juego
de los leñadores. El ecosistema es el juego LD.
para su todo vida. Cada leñador en la población
Mundo en el que los leñadores viven y dejan su
selecciona al azar una colina, va allí, y juega el juego
descendencia. Hay varias colinas en este mundo, y
LD para toda su vida. El procedimiento seguido en
en cada colina, algunos leñadores juegan el juego
el experimento real es el siguiente:
del dilema de los leñadores.
A continuación, se describen los componentes del 1. Seleccionar una colina en el ecosistema LD (la
mundo del juego y sus correspondientes variables. colina i ).
El componente elementos de los leñadores dilema
2. Seleccionar una especie de leñador en la pobla-

ˆ
ecosistema incluye el siguiente:
ción al azar y llevar un leñador de esa especie
un conjunto de especies de leñador:
a la colina i. Este leñador se llama un jugador
S = {1, 2, . . . , s}
ˆ un conjunto de las colinas:
en esa colina.

H = {1, 2, . . . h}
ˆ una variable de generación:
3. Repetir el procedimiento (2) hasta que el nú-
mero de jugadores alcanza el límite n. Leña-
Generación = (1, 2, . . .)
ˆ una variable que representa el número de espe-
dores de la misma especie pueden existir en la
misma colina.
cies hecho extinguida por el proceso de selección, k
. Los procedimientos anteriores se aplican a todas las
Una especie de leñador se dene como el conjun- colinas de la colina (desde la colina 1 hasta h ). Co-
to de todos los leñadores en la población que tienen mo resultado, cada colina llega a tener n jugadores,

13
y el juego LD se juega en cada colina. Las espe- m árboles. Cada jugador posee una variable unidi-
cies de jugador i en la colina η(H) se denota por mensional que representa su estado, con una fun-
S(η, i), o que abreviamos como S(i) cuando la co- ción de toma de decisiones (estrategia). Por ejem-
lina del jugador no es importante. Entre los nh le- plo, el estado del jugador i se denota por y i (t),
i
ñadores totales en todas las colinas, el número de y la función de toma de decisiones de f , de-
leñadores de las especies σ(S) se denota por el nú- nota por y(t) : (y 1 (t), y 2 (t), . . . , y n (t)) and f =
mero (σ), mientras que la puntuación media del ju- (f S(1) , f S(2) , . . . , f S(n) ). Cada componente de x(t)
gador i en la colina η en el juego LD se denota por y y(t) está representado por un número real positi-
medio (η, i), cuandoηH e iN . vo. En el juego LD, el estado de un jugador tiene
dos características importantes. En primer lugar,

4.1.4. Aptitud y cambio de generacio- aumenta de acuerdo con el tamaño de la madera

nes obtenida a partir de un árbol. En segundo lugar,


se reduce si el jugador toma ninguna acción y no
Los juegos de LD sobre todas las h colinas obtiene ninguna madera. Es decir, el estado de un
en su conjunto se consideran una generación del jugador puede ser considerado para representar el
juego. Después del término de una generación, grado de la alimentación, la riqueza, etc. Estos es-
varias especies se seleccionan con respecto a la tados gobiernan la aptitud de los leñadores.
aptitud y la replicación, acompañado de un proceso Los jugadores deciden sus acciones haciendo re-
de mutación, antes de que comience la próxima ferencia a los tamaños de los árboles, x(t), y los
generación. La adaptación de la especie σv se puede estados de los jugadores, y(t)4 . La totalidad de
calcular como la puntuación media de todos los las acciones de todos los jugadores se denota por
jugadores de todas las colinas que pertenecen a la a(t) = (a1 (t), a2 (t), . . . , an (t)). La acción individual
especie σ de la siguiente manera: de cada jugador puede ser uno de los m + 1 posibles
acciones: no hacer nada,corte del árbol 1, corte del
ΣηHΣiN ,S(η,i) =σ average(η,i)
aptitudσ = numberσ
árbol 2, . . . , o corte del arból m. Estas acciones
Antes de que comience la próxima generación, la están representados por 0, 1, 2, . . . , m, y el con-
especie k con la condición física más baja se elimi- junto de todas estas acciones viables se denota por
nan de la población en un proceso de selección. Los A.
sobrevivientes (S − k) especies pueden dejar a sus Por lo tanto, las propiedades de los jugadores y
descendientes a la siguiente generación, y estos par- los recursos son los siguientes:
ticipantes tendrán la misma decisión haciendo fun-
ciones como sus respectivos antepasados. Las espe- El estado de los recursos (el tamaño del arból):
n
cies extintas se sustituyen por k nueva especie, que x = (x1 , x2 , . . . , xm )R+ ;
son mutantes de k especies seleccionados al azar de
entre las especies sobrevivientes (S − k). El proceso El estado de los jugadores: y =
de mutación se explica en detalle más adelante. A
(y 1 , y 2 , . . . , y n )R+
n
;
lo largo de todos los experimentos reportados en es-
Las acciones de los jugadores: a =
te trabajo, se establecieron los parámetros s y k se
(a1 , a2 , . . . , an )An ;
establece s = 10 y k = 3. El procedimiento anterior
se repite a continuación, en la siguiente generación.
La función de toma de decisiones de los juga-
dores: f = (f S(1) , f S(2) , . . . , f S(n) ).
4.2. El juego del dilema de los
leñadores en una colina. 4.2.2. Una ronda de un juego LD
El mismo procedimiento se repite T veces en el
Aquí le damos una explicación detallada del jue-
juego LD, y esto produce la dinámica del juego en
go jugado por los n leñadores (jugadores) en cada
una colina. La unidad de esta repetición se denomi-
colina.
na una ronda. Los factores que rigen el comporta-
miento del sistema en una ronda son los siguientes:
4.2.1.Los jugadores y los recursos

En cada colina, allí viven leñadores n (jugado- 1. La ley natural. Los estados de los jugadores

res) que compiten por los m árboles (el recurso y de los recursos (los tamaños de los árboles)

de la colina). Denotemos el estado de los recur- cambian de acuerdo a una ley natural.

sos de una colina en el tiempo t por x (t ). x(t) = 4 Para ser precisos, sus decisiones no están basadas en x(t)
(x1 (t), x2 (t), . . . , xm (t))es un vector m -dimensional y y(t), pero en x(t)0y y(t)´. Estod puntos será tocados mas
cuyos componentes representan los tamaños de los adelante.

14
2. La toma de decisiones de los jugadores. Cada Donde z es el tamaño del árbol. En este caso, el
jugador elige su acción teniendo en cuenta los árbol crece a un ritmo de 50 %, pero su tamaño no
estados de los jugadores (incluido el suyo) y de exceda de 1.0.
los recursos.

3. Efectos de las acciones. Las acciones de los ju-


gadores afectan el estado del recurso en la co-
lina. A saber, los tamaños de los árboles cor-
tados por los jugadores se reducirán en conse-
cuencia. La madera cortada de un árbol se di-
vidirá por igual entre todos los jugadores que
cortan el árbol juntos, la obtención de la ma-
dera aumenta el valor de estado de un jugador.

(1) La ley natural. La ley natural (Sección 2.4) de


un juego de DS afecta a la dinámica de juego, pero
no tiene nada que ver con la toma de decisiones de
los jugadores. En los juegos LD, las leyes naturales
tienen dos funciones: para disminuir el valor de los
estados de los jugadores, y i (t)0 = uN (y i (t))(iN ), y
para aumentar el tamaño de los árboles, xk (t)0 =
uΞ (xk (t))(kΞ).
La disminución de los valores de los estados de
los jugadores, que es denido por el mapa uN se
representa como y i (t)0 = uN (y i (t)) . El valor de
estado del jugador i y (t+1)en la próxima ronda
i
i
sigue siendo y (t) a menos que adquiera la madera.
Aquí elegimos una forma de amortiguación de este
mapa dado por uN (z) = kz(kmenor1). A lo largo
El crecimiento de una siguiente u0 árbol se mues-
de los experimentos, el coeciente constante k se
tra en la Fig. 3. Para mayor comodidad, llamamos
establece en 0.8.
a este mapa u0 lineal a trozos o, simplemente, un
La regla de crecimiento de los árboles está dada mapa lineal.
por el mapa uΞ , según el tamaño del árbol i, xi se (2) La toma de decisiones de los jugadores. Todos
0
cambiará a xi : los jugadores tienen sus propios mecanismos para
xi (t)0 = uΞ (xi (t)). decidir sus acciones: decidir qué árbol para cortar,

´
Si un árbol no se corta, su tamaño en la siguiente o que se abstengan de cualquier acción. Cada juga-
ronda de xi (t + 1) está dada por xi (t) . Para uΞ , dor elige su próximo acción a(t) de una manera que
utilizamos dos tipos de mapas. En los experimentos depende del estado de su entorno, x e y. Una expli-
descritos en el presente documento, se utilizó prin- cación detallada de la función de toma de decisiones
cipalmente la siguiente función polinómica de tres f está dada más adelante (Sección 4.3).
dimensiones: Efecto de las acciones de los jugadores. Las
(3)
uΞ (x) = 0,7x3 − 2,4x2 + 2,7x. acciones de los jugadoresa(t) pueden reducir los ta-
El gráco correspondiente para y = uΞ (z) se mues- maños de los árboles x(t)0, y los valores de los esta-
tra en la Fig. 2 (a). Llamamos a este mapa un mapa dos de los jugadores que cortan los árboles aumen-
convexo debido a su forma. El proceso de crecimien- tan en consecuencia. En los experimentos reales, el
to de un árbol de una condición inicial x(0) = 0,10 tamaño del árbol i se va a convertir, en la siguiente
se muestra en la Fig. 2 (b) para el caso en el que no ronda, y vi veces más grande de lo que era, donde vi
se tala por ningun jugadore. Como se muestra en es el número de jugadores que la cortan (γ ≤ 1).
esta gura, el árbol crece rápidamente hasta alre- xi (t + 1) = γ vi xi (t)0.P
dedor de 3, pero está casi saturado a alrededor de Tenga en cuenta que iΞ vi ≤ n, ya que cada
4. Así, se ve que esperar demasiado tiempo no es jugador puede cortar a lo sumo un árbol en una
necesariamente una buena estrategia para los leña- ronda determinada. A lo largo de los experimentos,
dores. 1
el parámetro γ 3 . Observamos que
se establece en
1
Otra ley natural para el crecimiento de los ár- los resultados de las simulaciones con γ =
2 no son
boles que utilizamos en este trabajo es la siguiente signicativamente diferente.
función: Adquisición de un recurso cambia de estado de un
uΞ0 (z) = min(1,5z, 1,0), jugador. En este juego LD, un estado del jugador i,

15
y i (t) se toma para ser una función lineal del tamaño con x e y. La función para el jugador i (N ) que
i
de la madera que adquiere. Supongamos que a (t) = representa el mecanismo de toma de decisiones se
µ, el jugador i puede decirse que se han talado un dene como la función de toma de decisiones del
i
árbol μ a menos a (t) = 0. Aquí denota el tamaño de jugador i, f S(i) , donde S (i) denota las especies
jugador i
i i
la madera de construcción por ∆ .∆ , por supuesto, que el pertenece. f S(i) es la estructura
cero si el jugador i tiene seleccionado la acción 0, interna del jugador i y es invisible para los demás
es decir, no hacer nada. De lo contrario, se puede jugadores. La función de toma de decisiones del
determinar por el siguiente: jugador i actúa de la siguiente manera:

xµ (t) 0 − xµ (t + 1) (1 − γ vµ ) ai (t) = f S(i) (x (t) , y (t)) .


∆i = = uΞ (xµ (t)) . Aquí, f puede depender del estado de todos los ju-
vµ vµ
gadores o sólo en el estado de los vecinos más cerca-
Por lo tanto ∆i es el incremento en valor del estado nos. Hay muchas posibilidades para la elección de f,
del jugador i : pero cualquier estructura para f es válida siempre y
y i (t + 1) = y i (t) 0 + ∆i . cuando el mapa utiliza sólo x e y como entradas. En
el juego LD, hemos elegido f para ser muy simple
4.2.3 Utilidad de los jugadores en una como se muestra a continuación.

ronda
Como se ha indicado en la Sección 4.2.1, el estado 4.3.1. Referencia al estado de los ju-
de un jugador puede ser considerado como su esta- gadores
do nutricional, estado monetaria, etc. Suponemos
En la sección 4.2.1, el conjunto de los jugadores
que la utilidad del jugador i (∀iN ) es simplemen-
y los estados de los jugadores se denieron de la
te el estado actual, yi . Con respecto a la primera
siguiente manera:
ronda del juego LD, la utilidad del jugador i para
i
la ronda se maximiza eligiendo ∆ tan grande co-
mo sea posible. La utilidad de un jugador es una
Conjunto de jugadores: N = {1, 2, . . . , n} , 
función creciente de la tamaño del árbol que corta Estado de los jugadores: y = y1 , y2 , . . . , yn .
y una función decreciente del número de personas Sin embargo, esta representación se da desde nues-

que cortan del mismo árbol. tro punto de vista como observadores de los expe-
rimentos. Hemos asignado a los índices de los juga-

4.2.4. Juego iterado dores, el jugador 1, el jugador 2, .... El n de esta


asignación de números tiene sentido desde el punto
En el juego LD, los procedimientos anteriormen- de vista de cada jugador.
te descritos constituyen una ronda se repiten
5 has- Aquí, estipulamos que los jugadores en una
ta que el número de rondas alcanza el máximo, T. colina desde el punto de vista de un jugador en
Después de la ronda nal, la puntuación media de particular (el jugador i ) se describen de la siguiente
cada jugador para T rondas se calcula, y las pun- manera:
tuaciones individuales de cada jugador aumenta o
disminuye la aptitud de las especies que pertenece Conjunto de jugadores: Ñ = {1, 2, . . . , n} , 
(Sección 4.1.4). Estado de los jugadores: ỹ = ỹ 1 , ỹ 2 , . . . , ỹ n .
La puntuación media (utilidad) del jugador i (N )
 
La correspondencia entre (N, y) y Ñ , ỹ depende
en la colina η (H) viene dada por
P T i
y (t) de cómo el jugador i constata el mundo exterior. En
media (η, i) = t=1
T .
primer lugar, el jugador i se identica a sí mismo
como jugador n dentro de la propia función de toma

4.3. Función de la toma de deci- de decisiones; Por lo tanto, yi corresponde al último


n
componente de ỹ, ỹ .
siones En cuanto a la disposición de otros componentes,
hay varias posibilidades. Por ejemplo, consideremos
Cada jugador decide su propia acción, a, basado
el caso de que cada jugador que distingue a los de-
en los estados de sus alrededores, que se indican
6
más por su ubicación, como fue el caso en los expe-
5 Un juego LD puede ser considerado como un tipo de rimentos considerados en este documento. Cuando
juego iterado, aunque la recompensa para una acción deter-
n jugadores están situados en un círculo, podemos
minada generalmente cambia con el tiempo. De esta manera
el juego LD se diferencia de los juegos que se repiten exis-
hacer una correspondencia de uno a uno entre N y
tentes ordinarios, como el IPD (Sección 3.1). Ñ, y también entre los componentes de y y y del
6 Aquí, x e y son usados por simplicidad, aunque, estric-
tamente hablando, x e y aquí deberían ser escritos como x0y y0.

16
jugador i. Jugador i se reere, por ejemplo, el si-
guiente jugador en su izquierdo como el jugador 1,
f S(i) (x, ỹ) = ai if mtvai (x, ỹ) ≥ maxmtvr (x, ỹ).
el segundo a la siguiente como el jugador 2 ..., y rA
que considera el siguiente jugador a su derecha co-
Llamemos el mecanismo anteriormente descrito uti-
mo el jugador n − 1, etc. Medida en que el jugador
lizando el mapa de motivación del sistema de mo-
i puede distinguir a los otros jugadores numeran-
tivación. Al determinar la acción a tomar, la infor-
dolos por algún medio, este método de numeración
mación pertinente relativa al conjunto {mtvr } no es
está se puede hacer si otros pueden estar situados
el valor absoluto de cada mtvr , pero la identidad
en una línea, en zigzag, o dispuestos aleatoriamente.
del elemento con el valor más grande.
Como segundo método de identicación de jugado-
res, cualquier jugador dado (que se identique a sí Hay muchos tipos de implementaciones para los

mismo como jugador n ) los números de los otros mapas {mtvr | rA} puede ser apropiado, siempre

jugadores de 1 a n − 1 con el n de disminuir el y cuando cada uno es un mapa de (x, ỹ) a los

valor de su estado. números reales. En este trabajo, cada mapa se

En el presente modelo, el estado propio de un dene como una función unidimensional de los

jugador, ỹ n , por lo general tiene un papel especial objetos de valor de estado x e y de la siguiente

entre las variables de entrada para la propia fun- forma:

ción de toma de decisiones del jugador. A lo largo


del desarrollo o evolución de la función de toma θlr ỹ l + ξr
P P
mtvr : (x, ỹ) 7−→ ηkr xk +
de decisiones, sin embargo, no imponemos un papel kM lÑ
especial para ỹ n con antelación. El estado propio Aquí, {ηkr }y {θlr }son matrices reales y {ξr }es un
de un jugador y los de otros jugadores no se dan de vector real. Estos coecientes determinan los valo-
forma explícita diferentes papeles como variables de res de los jugadores asignados a la estrategia a veces
entrada para la función de toma de decisiones. Al puede decidir qué jugador es superior.
principio, la única distinción entre ỹ n y las otras va-
La formulación utilizando esta programación
riables de estado del jugador es su ubicación. Es a
lineal puede ser la forma más sencilla de denir
través de la evolución de la función de toma de de-
la estructura mtv para los jugadores para hacer
cisiones que el propio estado ỹ n empieza a tener un
drente al entorno de juego dinámico. Por supuesto,
papel especial en la función de toma de decisiones.
algoritmos de decisión más sosticados que utilizan
en R
m n
mapas de R+ × R+ también se puede utilizar
4.3.2. Sistema de motivos
Para la implementación concreta la función de to-
ma de decisiones, f : (x, ỹ) 7−→ a, introducimos el
mapa de motivación mtvr , para cada acción viable 4.3.3. La mutación de la función de
r(rA). Podemos conocer el incentivo de un jugador
a tomar la acción r por mtvr , dada por un núme-
toma de decisiones
ro real. En el juego LD, mtv0 denota el incentivo
En el ecosistema de juego LD, nuevas especies
para no hacer nada, y mtvr (rA, r 6= 0) denota el
mutantes con mayor aptitud pueden sustituir a las
incentivo para talar el árbol r. En este caso, el con-
especies con menor aptitud. El proceso de muta-
junto de mapas de motivación, mtv, se puede de-
ción es implementado por un ligero cambia de pa-
nir de la siguiente manera: mtv = {mtvr | rA} =
rámetros de la función de toma de decisiones de la
{mtv0 , mtv1 , mtv2 , . . . , mtvm } .
especie madre, es decir, las matrices η y θ , y el
La estructura de un jugador mtv varía a lo largo de
vector ξ. Cada componente de η, θ, y ξ de la nueva
su evolución. El funcionamiento de mtvr se puede
especie es elegido como un número aleatorio de dis-
describir como sigue:
m n tribución normal con varianza alrededor de un valor
mtvr : R+ × R+  (x, ỹ) ≥ maxmtvr (x, ỹ) .
medio que es igual al valor de la caracterización de
rA
Cada jugador selecciona la acción cuya motivación la especie madre. (A lo largo de los experimentos,
tiene el valor más grande entre los conjuntos σv fue ajustado a 0.10.)
{mtvr }. En este sentido, mtvr puede decirse que la
función de utilidad para la acción de r. Mediante
(= maxrA mtvr (x, ỹ)) .Sin embargo, la posibilidad de que
el uso de {mtvr } , la representación concreta para
esto ocurra se aproxima a cero a medida que las generacio-
S(i)
la función de toma de decisiones f del jugador nes proceden y las estrategias se hacen más complicado, ya
(iN ) se puede denir como
7 que mtv está determinada por varios números reales. Para
este tipo de eventos con incentivos idénticos.}, se seleccio-
7 Existe la posibilidad de que haya dos incenti- na la acción con el índice más pequeño en el experimento
vos mtvi (x, ỹ)y mtvj (x, ỹ)que tengan valores indénticos numé´rico aquí.

17
4.4. Condiciones iniciales tipos de juegos DS que dieren del nivel de la des-
cripción concreta de la dinámica pueden clasicar
Hemos llevado a cabo varios experimentos con en el mismo juego estático.
diferentes condiciones, cambiando el número de ár-
boles, el número de jugadores, el tipo de funciones
de toma de decisiones, etc. En este caso, el resto de
ajustes iniciales que aún no han sido descritos son 5. Simulación
elegidos de la siguiente manera.
El escenario de la primera ronda del juego en cada evolutiva de una sola
colina es de la siguiente manera:
persona juegos LD
Valor de cada xi (iΞ) : 0,10 ;

Valor de cada ỹi (jN ) elegido de números alea- 5.1. Introducción


torios de una distribución normal con media
0.10 y varianza 0.10.
5.1.1. Características de los juegos de
Los coecientes de los parámetros η, θ y ξ para to- una sola persona
mar la decisión de las funciones de las 10 especies
Uno puede llamar a este juego LD un juego de
iniciales de leñador en el ecosistema LD se generan
una sola persona, aunque, estrictamente hablando,
números al azar de una distribución normal con me-
por denición, un juego de una sola persona no pue-
dia 0.0 y varianza 0.1. Un coeciente alrededor de
de ser llamado un juego.
8
0.0 implica que el leñador en la primera generación
presta la suciente atención a su entorno y su pro- Juegos de una sola persona son simplemente ma-

pio estado. A través de la evolución de los jugadores ximización (o minimización) de problemas, es decir,

empiezan a considerar el mundo exterior y sus pro- la solución racional para un jugador en un juego de

pios estados. una sola persona siempre puede ser decidido única-
mente por la optimización de algunos funcionales ,

4.5. La discusión de la estructura de mientras que en los juegos con varias personas que
por lo general no es posible que un jugador para de-
pagos en los juegos LD desde el punto cidir su mejor comportamiento sin tener en cuenta
de vista de los juegos estáticos los procesos de toma de decisiones de los demás.
Por lo tanto, la dicultad en la solución de la estra-
Veamos, ahora tocamos lo que debe tenerse en
tegia óptima en los juegos de una sola persona es
cuenta acerca de la estructura de pagos del juego
sólo una técnica en lugar de uno conceptual, a pesar
LD simulado en esta sección. Desde el punto de vis-
de su signicancia [12]. Desde el punto de vista de
ta del juego estático, juegos LD con una ley natural
teoría de juego, lo que más importa en problemas
de ruta de tipo convexo para el crecimiento de los
de optimización ordinarios, como el problema del
árboles y los que tienen una ley natural de ruta de
viajante, es la posibilidad de construir la matriz de
tipo lineal son esencialmente los mismos. Conside-
pagos en sí. Una vez que se construye la matriz de
remos, por ejemplo, de una sola persona, juego LD
pagos de un juego de una sola persona, la solución
de un árbol. En el juego estático corresponde a una
para el comportamiento óptimo es meramente una
sola ronda de un juego LD, la banda sonora de la
cuestión de determinar la estrategia cuya rentabili-
acción de cortar un árbol en la matriz de pagos es
dad es la más grande.
siempre mayor que el de la acción de espera, in-
Por supuesto, el dilema que algunos juegos con
dependientemente de la elección de mapa de tipo
varias personas implican que no pueden aparecer
convexo o mapa de tipo lineal. Por otra parte, la
en un juego de una sola persona, incluyendo una
acción de esperar a veces trae al jugador un bene-
sola persona, juegos de dilema de leñadores, aun-
cio de largo alcance en cualquier tipo de juego LD.
que el nombre implica el término dilema. La pala-
En caso de juegos con varias personas, el juegos LD
bra utilizada dilema con respecto a los juegos con
de ambos tipos implican un dilema social y un jue-
varias personas por lo general corresponde a la si-
go de este tipo podría tomar la forma de un dilema
tuación en la que la toma de decisiones racional de
de n personas prisioneros si está representado como
cada jugador para maximizar su utilidad personal,
un juego estático. De hecho, los jugadores pueden
paradójicamente, se traduce en la reducción de los
maximizar sus benecios colectivos de la coopera-
servicios públicos de todos los jugadores.
ción mutua en la espera para el crecimiento de los
árboles, pero cada uno de ellos pueden maximizar 8 Juego no es nada, pero una formulación matemática re-
su benecio personal entregando los demás y el cor- presentando problemas entre más de tomadores de decisio-
te de los árboles más antiguos. Por lo tanto, varios nes.

18
Es decir, si los jugadores cooperan, todos ellos
podrían adquirir los servicios públicos más altos
(Pareto dominante), pero su racionalidad no per-
mite esta adquisición. Por otro lado, en los juegos
de una sola persona, la toma de decisión racional
de un jugador siempre maximiza su utilidad. Aho-
ra consideremos el caso de un juego LD de una sola
persona. En un juego de este tipo, la mejor estrate-
gia para un jugador es, simplemente, esperar siem-
pre para el crecimiento ciente de un árbol y luego se
corta, porque no hay ningún competidor que inten-
ta robar el jugador de la prot en este juego. Por lo
tanto, el juego es simplemente un problema de ma-
ximización. Aquí, el jugador puede controlar com-
pletamente los tamaños de los árboles y por lo tanto
puede aumentar la puntuación media por vuelta.

5.1.2. intereses principales


Hay dos puntos principales de interés en una so-
la persona juegos LD. En primer lugar, estamos in-
teresados en cómo un jugador maximiza su utilidad
en un juego con la dinámica. Tenga en cuenta que
existe una situación de dilema similar, incluso en el
juego LD de una sola persona. Al cortar un árbol
el jugador siempre se da cuenta de una puntuación
más alta en el siguiente paso. Sin embargo, la es-
trategia de cortar un árbol en cada paso es por lo
general no bueno para el largo plazo. Aquí necesitamos una estrategia que tenga en
cuenta la dinámica del juego. Para la comparación,
consideremos un juego estático, el juego G, repre-
sentado por la matriz de pagos en la Tabla 4. Aquí,
como un asunto de curso, el jugador debe seleccio-
nar la estrategia B, por lo que puede obtener un
puntaje de 8. Así, es fácil determinar la solución de
un juego de una sola persona, una vez que la ma-
triz de pagos es dada como una regla. En caso de
que el juego consta de la iteración del juego G, la
mejor estrategia es simplemente la iteración de B
(B). En una persona los sistemas dinámicos juego,
sin embargo, el comportamiento de un jugador en
cada ronda con frecuencia cambia de acuerdo con
la dinámica del juego, que pueden ser representados
por una matriz de benecios dinámicos (Tabla 5).
El segundo punto de interés aquí es la evolución ob-
servada en una persona LD juegos que tienen (apar-
te del número de jugadores) las mismas condiciones
como en unas múltiples personas LD juegos (que
se investigarán en los siguientes documentos). Es-
tamos especialmente interesados en conocer cómo
evoluciona en función de la toma de decisiones de
una sola persona LD juegos con la consideración
hecha sólo del entorno de juego (Sección 2.2) y el
propio estado del jugador.
Hemos llevado a cabo tres ensayos para cada tipo
de LD juegos con las mismas condiciones, pero con
diferentes semillas. (Los números aleatorios son uti-

19
lizados para generar las primeras especies, creando 5.2.2. El juego en las primeras gene-
mutantes de la especie desde el juego anterior, y raciones (carta de acción, tabla de re-
decidir en qué Hill, un jugador de una especie par-
cursos, gráco de estado, y la toma de
ticular vivirá.) Para cada tipo de juego, un ejemplo
típico de los tres experimentos es presentado aquí.
decisiones función).
En la siguiente sección, una simulación evolutiva
de una persona con ruta tipo convexo LD juego es En las Figs. 5(a)-(c), la dinámica de un jugador

investigada. El resultado de una persona con dos de especies ID-00001 se traza. En este experimento,

árboles de ruta de tipo convexo LD juego está dada esta especie existió hasta la cuarta generación. Las

en el Apéndice A. Los fenómenos evolutivos de ruta Figs. 5(a)-(c) muestran la dinámica de la acción

de tipo lineal LD juego se examinan a continuación del jugador, el tamaño del árbol, y el jugador del

(en la última parte de la sección 6). estado, respectivamente. En todas estas cifras,
estas cantidades se representan frente a la ronda

ª
en un eje horizontal. Aquí, sólo el comportamiento
hasta la 50 ronda (entre el T = 400 balas) se
trazan, puesto que este comportamiento se repite
en forma periódica más allá de este punto.

5.2. Un árbol en una colina

5.2.1.Bosquejo de la evolución (grá-


co de la aptitud)

En primer lugar, consideramos que la evolución


de la simulación de una persona, un árbol de ruta
de tipo convexo LD juego. En las Figs. 4(a)-(c) (ca-
da uno de los cuales es llamado un gráco), que la
aptitud que la especie más aptos de cada genera-
ción (la generación de especies más aptas) posee, al
que llamamos el valor el más apto de la generación,
se traza con la generación. En cada tabla de apti-
tud, el eje horizontal corresponde a la generación,
mientras que el eje vertical corresponde a los más
aptos de cada generación de valor.
En la Fig. 4, en cada caso, el valor más apto no dis- Fig. 4. Gráco de Aptitudes en un LD juego con un leñador
y un árbol: el gráco de Aptitudes se muestra: (a) hasta
minuye y aumenta paso a paso con la generación,
la décima generación; (b) desde la 10ª a la 70ª; (c) hasta
aunque el valor es casi saturados en aproximada- la 300ª. En todas las cifras, el eje horizontal representa la
mente 1,5 en generaciones muy pronto. Esta forma generación, y el eje vertical representa el valor de Aptitudes
de la generación, que es el valor de la gimnasia de las más
no decreciente es bastante natural, ya que este jue-
aptas especies de cada generación.
go es un juego de una sola persona. La idoneidad de
cualquier especie en un juego de una sola persona
está determinada únicamente por su estrategia (ya
que no hay ninguna interacción con otras especies). En la Fig. La letra a) del apartado 5, la acción
De ahí una nueva especie puede introducir la po- del jugador en cada ronda, donde se muestra la
blación sólo por el aumento de su propio gimnasio, acción de n ≥ 1, la acción n consiste en cortar el
no reduciendo la aptitud de otras estrategias. árbol n, mientras que la acción 0 es simplemente
Como se muestra en las Figs. 4 (b) y (c), el valor no hacer nada. Los ejes verticales de higos. 5(b)
de la aptitud puede aumentar en las generaciones y (c) representan el tamaño del árbol y el estado
posteriores, pero el aumento se hace mucho más del jugador, respectivamente. Llamamos a guras
pequeña. Además, la frecuencia a la cual aumentos como los higos. 5(a)-(c) como la acción gráco, el
se producen también se reduce en las generaciones gráco de recursos, y el estado gráco, respectiva-
posteriores. Por ejemplo, más allá de las parcelas en mente
la Fig. 4, nuevo las especies más aptas aparecen en .
la parte 314a, 3604a, 5847a, y8983rd generaciones.

20
5.2.3.La función de toma de decisio-
nes
La tercera especie más apto en la cuarta
generación, ID E-0000000, tiene la función de
toma de decisiones se ilustra en el gráco de
radar (ver Fig. 2). 7). Una función de toma de de-
14
cisiones en este papel es representado como sigue:

θlr y l + ξr . rA
P P
mtvr (x, y) = ηkr xk +

En la actualidad, los parámetros de simula-


ción se establecieron como N = {1}, Ξ = {1}; y
A = {0, 1} (correspondiente a la espera y talar un
árbol, respectivamente). En la Fig. 7, mtv1 está
trazada por la línea punteada y MTV1 por la línea
sólida. El coeciente de x1 , η1r corresponde al eje
denominado "Medio ambiente" (el único de los
Fig. 5. (a) la acción gráco - la dinámica de la acción del recursos ambientales, el árbol), el coeciente de
jugador. (b) recurso gráco - la dinámica del tamaño del y 1 , θ1r corresponde al eje denominado "Me" (un
árbol. (c) el estado gráco - la dinámica del estado del ju-
gador. En el gráco de la acción, el promedio del estado del
solo jugador), y el término constante, ξr , eje es

jugador (la puntuación media) para T rondas aparece en el denominado "constante".


título y el nombre del leñador especies a las que pertenece Consideremos el signicado de la función de toma
el reproductor se muestra en la leyenda (en el recuadro). En de decisiones del jugador de especies ID-0000000E.
el gráco de recursos, el tamaño promedio del árbol para T 9
rondas se adjunta al título. Por ejemplo, (a) y (b) muestran
que el reproductor de la especie-00000001 ID tiene una pun-
tuación media de alrededor de 0,25 y el tamaño promedio de
los árboles es de alrededor de 0,91.

Fig. 5(a) muestra que este reproductor básica-


mente repite el patrón de cortar el árbol y no hacer
nada para las 11 rondas y, a continuación, corte
el árbol de nuevo y repetir este proceso indenida-
mente. Fig. 5(b) traza el aumento del tamaño del
árbol mientras el reproductor está esperando, pero
el crecimiento se desacelera considerablemente des-
pués de las aproximadamente tres rondas. En este
sentido, este jugador de espera demasiado largo pa-
ra el crecimiento del árbol. En realidad, la aptitud
del jugador no es buena, y llega a extinguirse den-
tro de esta generación.
La acción de un jugador de la tercera especie más
Fig. 6. La tercera especie más fuerte de la cuarta generación:
apto (dado por ID E-0000000) en la cuarta genera-
(a) la acción gráco; (b) recurso gráco; (c) estado gráco.
ción se muestra en las Figs. 6(a)-(C). Este reproduc-
tor se corta el árbol antes de su tasa de crecimiento
Como se ve en la Fig. 7, la línea de puntos me cruza
se ralentiza considerablemente las ganancias y más
el eje en un valor positivo (lo que se conoce como
ganancias que el jugador de la Fig. 5. Por lo tanto,
θ10 ) y cruza la línea sólida en un valor negativo
especies cuya estrategia gestiona ecazmente las di-
(lo que se conoce como θ11 ). De ahí que, como
námicas de juego para adquirir el benecio a largo 1
el valor del estado del reproductor .y / aumenta
plazo (madera) puede sobrevivir a la próxima ge-
el incentivo a esperar también aumenta, mientras
neración. (La dinámica de juego gestionado por el
que el incentivo para cortar el árbol disminuye. De
más apto en especies de la cuarta generación tiene
la misma manera, el reproductor deja de esperar
una característica similar a la de generaciones pos-
si el tamaño del árbol x1 aumenta, porque la
teriores, como se muestra más adelante (período-2
dinámica presentados en la sección 5.2.4). 9 14 usamos y en lugar de y aquí por la sencillez.

21
línea discontinua que cruza el eje entorno a un
valor negativo η10 , es decir, él espera cuando esté
satisfecho (su estado tiene un gran valor) y corta
el árbol cuando el árbol ha crecido grande. Esto es
razonable en la toma de decisiones.

Fig. 8. Administrar el entorno de juego con periodo-2 ciclo


Fig. 7. La función de toma de decisiones de la tercera especie
(la 64ª generación).
más aptos en la cuarta generación. Los parámetros utiliza-
dos en la decisión en función de la tercera especie más aptos
haciendo en la cuarta generación, ID-0000000E, están com-
pletamente representado por este gráco radial. Si el jugador corta el árbol cada tercera ronda,
él puede obtener más madera desde el árbol por
corte, pero el valor de la media de estado del
jugador más rondas T es menor en este caso. La
gestión del crecimiento de los árboles con periodo-2
Si un jugador no se considera un parámetro concre-
de ciclo, que es similar a la de la Fig. 8, adoptado
to, la toma de decisiones, la función toma un va-

ª
también por la especie más fuerte de la cuarta
lor de cero parael coeciente correspondiente. Por
generación de la 3604 generación.
ejemplo, el jugador descrito por la Fig. 7 apenas
se reere al tamaño del árbol X1 como para el in-
centivo para cortar el árbol (mtv1 ), desde la sólida
línea cruza el eje de entorno en un punto cercano
a ceroη11 . En otras palabras, este reproductor de
incentivo para cortar el árbol sólo depende de su
satisfacción, no en el tamaño del árbol (mtv0 , sin
embargo, depende en gran medida de la x1 y y 1 ).

5.2.4 Cambio de dinámica de juego


con evolución
Figs. 8(a) y (b) muestran el comportamiento en una
Fig. 9. Evolución en las generaciones posteriores. Gráco de

ª
colina ocupada por un jugador más fuerte de la
la acción (a) y el recurso gráco (b) de la especie más fuer-
especie en la 64 generación (ID-000000C5). Este te de la 277ª generación. (c) el recurso gráco de la 3605ª
jugador consigue el crecimiento del árbol con un generación.

período-2 ciclo, es decir, como se ve en el gráco de


la acción (Fig. 8(a)), se corta el árbol cada segunda Fig. 9 se muestra el juego de LD en la 277 ª
ronda. Fig. 8(b) muestra que el tamaño del árbol generación. Las especies más aptas, ID-00000345,
cambia periódicamente entre dos valores como si- se comporta como se muestra en el gráco de
gue: la acción en la Fig. La letra a) del apartado 9,
pero el comportamiento es muy similar al que se


1. crecimiento del árbol basada en la ley natural
observa en la Fig. 8(a). La dinámica de crecimiento
(0.3064 0.6222).
periódico del árbol, con el tamaño varía entre 0,3 y

2. La decisión del jugador: "esperar" (0.6222  0,6, se realiza también en este caso. Sin embargo,
la especie-00000345 ID tiene, por supuesto, más
0.6222).
grande que la especie ID aptitud-000000C5 de la
Fig. 9. La diferencia entre la dinámica de estas


3. crecimiento del árbol basada en la ley natural
(0.6222 0.9194); dos especies sólo existe en la transitoria, antes de
que la dinámica del estado del jugador y el recurso


4. La decisión del jugador: "cortar el árbol" completamente cae en un ciclo periódico. Este
(0.9194 0.3064): El árbol llega a ser 1/3 período- 2 dinámico es característico de la especie
tan altos como antes, y el jugador adquiere la más fuerte a lo largo de muchas generaciones, pero
madera de la cantidad 0.9194-0.3064=0.6130, las variaciones en las dinámicas son exhibidos en el
aproximadamente. transitorio antes de la dinámica cae en un ciclo.
El predominio del período-2 dinámico termina en

22
la 3605 ª generación, cuando se convierte en una
especie de mejor apto que supervisa el período-7
dinámica (Fig. 9(c)). Una nueva especie dominante
del período-23 aparece en la 5848th generación y
uno de período-11 aparece en la 8984th generación.
Por lo tanto, se considera que el tiempo entre los
cambios de las especies más aptas es largo en las
generaciones posteriores.

Fig. 10. La dinámica de la matriz de pagos (la cuarta gene-


ración): (a) la matriz de pagos externos; b) matriz de pagos
interno. En cada gura, el eje horizontal muestra la ronda y

5.2.5Dinámica de matrices de empate el eje vertical muestra la rentabilidad para cada acción.

El gráco de la aptitud, gráco de la acción, la car-


ta de recursos, y gráco de estado, presentado en
la sección anterior, son útiles cuando estudiamos la Mientras tanto, en la Fig. 10(b), la dinámica de la
dinámica de los juegos. Por otro lado, en la teo- matriz de pagos para cada acción es viable dado el
ría de juegos tradicionales, un juego generalmente incentivo para la acción. Por ejemplo, la rentabi-
se describe mediante una matriz de pagos (en re- lidad se muestra por la línea punteada es el valor
15
presentación de forma normal ) o, en algunos de MTV0 y que se muestra por la línea sólida es
casos, por la repetición de un juego (juego iterado). el valor de la MTV1. Nos referimos a la matriz de
Aquí podemos discutir la pertinencia de estos grá- pagos correspondiente a esta gura como la matriz
cos para describir la dinámica de rentabilidad de de rentabilidad interna. El jugador decide su acción
las matrices.
10
simplemente según esta aseveración matriz en cada
Si queremos utilizar la matriz de pagos en un juego ronda. En el juego de DS para una persona, cada
de DS, la matriz debe cambiar con el tiempo. La recompensa interna es simplemente el incentivo pa-
dinámica de la matriz de pagos se muestra en la ra una determinada acción r, mtvr .
cuarta generación es el mostrado en la Fig. 10(a), Por lo tanto, esta matriz de pagos corresponde a
lo cual corresponde a la LD juego de Fig. 5 en la la de la tradicional teoría de juego. En la teoría de
sección anterior. La recompensa para cada acción juegos tradicionales, sin embargo, la matriz de pa-
0 o 1 se representa frente a la ronda. La recom- gos está dada explícitamente como una regla, mien-
pensa para cada acción está sentada aquí a ser el tras que en el juego de DS, la matriz de pagos es
tamaño de la madera que el jugador obtiene por la construida por el jugador de acuerdo a su función
acción. Por lo tanto, la recompensa de la acción 0 de toma de decisiones que determina su manera de
(espera), mostrado por la línea punteada, siempre referirse al entorno de juego (y también a otros ju-
es cero, mientras que la dinámica de la recompensa gadores de estado, en el caso de múltiples juegos de
de la acción 1 (corte del árbol) se muestra por la persona).
línea sólida es similar al recurso gráco en Fig. 5(a).
Esta dinámica se denomina la dinámica de la

ª
La dinámica de las matrices de pagos internos y
externos de un jugador de los más aptos en la 277
matriz de pagos externos. Tenga en cuenta que,
generación de especies se muestran en las Figs.
en cualquier caso, la recompensa de la acción 1 es
11(a) y (b)(cf. Las Figs. 9(a) y (b) en la sección
mayor que la de la acción 0.
anterior). Por construir esa dinámica de la matriz
de pagos, como se muestra en la Fig. 11(b), el
jugador puede adquirir promedio relativamente
alto de puntuación en este juego de LD para una
persona. Esta construcción es posible a través
de las experiencias en un juego que sigue una

10 15 Un dinámica particular de la ley.


juego representado en forma extensa, que tiene un
diagrama de bifurcación, es posible de ser transferido a un
juego en forma normal, y viceversa.

23
Fig.12. Una simulación juego tipo LD para una perso-
na de mapa lineal .El gráco de la aptitud de la sola
persona de ruta de tipo lineal juego LD de la primera
generación de 60º se representa con una curva de ajuste
Fig. 11. La dinámica de la matriz de pagos (la 277ª gene- exponencial. La dinámica de juegos óptimos se realiza
ración):(a) la matriz de pagos externos; b) la rentabilidad en la 45va generación.
interna de Matriz.

5.2.6 Simulación evolutiva de un ma-


pa de tipo lineal juego LD
Demos brevemente el resultado de una simula-
ción por ordenador muestra un mapa lineal para
un juego LD de una sola personas. El gráco de la
aptitud en la Fig. 12 para el juego de ruta de tipo
lineal muestra que el valor aumenta gradualmente
el más apto, pero no paso a paso con la generación.
(Compárese esto con el gráco de la aptitud para el
juego LD mapa de tipo convexo en la Fig. 4.) Por
otra parte, en el presente caso, la dinámica del jue-
go óptimos se dieron cuenta fácilmente por la 45va
generación.

6. Características de la

dinámica en los juegos

LD

6.1 El attractor de la dinámica


del juego

En esta sección, investigamos la evolución de la


dinámica del juego introduciendo el concepto de at-
tractors de la dinámica del juego. En los juegos LD
con un solo jugador que consideramos en este tra-
bajo, hemos observado la interacción y la inuencia
mutua de la estructura del juego y demostramos la
dinámica dentro de ella: el entorno del juego diná-
mico se encuentra determinado por las acciones de
los jugadores que son representados por el graco
de recursos, mientras que las utilidades de los juga-
dores para las posibles acciones son representados
por la dinámica de las matrices de pago internos.
La evolución La evolución de los algoritmos ha-
cia la maximización de la aptitud visto en la sección
anterior es, desde el punto de vista de los juegos DS,

24
considerado como el proceso de hacer el entorno de attractor, que implica desvío
11 a un attractor dife-
juego más y más productivo por los jugadores. Los rente.
jugadores intentan construir un entorno de juego 2. Evolución que cambia la parte transitoria
que les puede traer mayores ganancias. Por ejemplo, Por ejemplo, en el juego LD de un solo árbol dis-
el jugador de la gura. 13 (a) logrado en la construc- cutido en la sección 5.2, aparece dos periodos diná-
ción de un entorno de juego productiva, mientras el micos en la temprana generación (en la cuarta gene-
jugador en la gura. 13 (b) no lo hicieron. ración). Este período de 2 attractor domina largo de
muchas generaciones, hasta el patrón con período
de dominancia 7 (en el 3605va generación). Duran-
te estas generaciones de 2 attractor la evolución só-
lo avanza sobre parte transitoria. La evolución que
cambia la parte attractor es difícil que se produzca.
Se puede decir que la evolución con un desvío a un
nuevo attractor trae consigo una gran innovación,
mientras que la evolución sobre la parte transitoria
es una mejora mínima para hacer el entorno del jue-
go productiva. Aquí la gran innovación no implica
necesariamente un gran aumento en el pago, sino
más bien un cambio estructural importante en la
dinámica. Ambos tipos de evolución puede cambiar
la aptitud de las estrategias, pero las maneras en
las que afectan a la dinámica del juego son comple-

Fig. 13. Dos grácos de recursos en la misma genera- tamente diferentes. Sólo un cambio en el attractor

ción (la generación 277 va) para un juego LD de una conduce a la innovación cualitativo en la dinámica
sola persona, un árbol: (a) un ejemplo de los jugadores del juego. En juegos con dos perdonas (o más), la
lograron construir d un entorno de juego productivo. (b) diferencia es más clara. Por ejemplo, un cambio en
un ejemplo de los jugadores que no pudieron hacerlo. el transitorio altera la manera en la que se forma un
Consideremos la gura 14. Aquí el gráco de re- cierto tipo de cooperación, mientras que la del at-
cursos observado en la treceava generación, del jue- tractor implica un cambio en el tipo de cooperación
go LD está representado por dos árboles de ruta de en sí.
tipo convexo. Como se ve, la dinámica nalmente Por vía del contraste, vamos a interpretar el pre-
cae en un ciclo periódico. Este periodo dinámico sente juego LD como un juego estático convencio-
continúa hasta la ronda nal. Por ello se considera nal. En este caso, necesitamos construir una corres-
un attractor de la dinámica del juego. En general, la pondencia de una serie temporal de las acciones a
dinámica del juego se puede dividir en una parte del una función de pago. Hay dos maneras de construir
attractor (Que es periódica en el presente caso), y tales funciones de pago de juegos estáticos. Uno de
una parte transitoria. La dinámica correspondiente ellos implica un mapa del conjunto de acciones (ac-
a un attractor, por supuesto, no necesita ser perió- ción 0, acción 1,. . . ) sobre las puntuaciones y el otro
dica, pero puede ser cuasi-periódica, caótica, y así es un mapa del espacio de parámetros de las fun-
sucesivamente. ciones de toma de decisión de los leñadores sobre
la puntuación media de 400 rondas. No importa el
tipo de mapa que se seleccione, podemos encontrar
el cambio de la recompensa causado por la modi-
cación de las decisiones de los jugadores en un juego
estático, y además podemos encontrar el equilibrio
de la estructura de pagos, al menos teóricamente.
Con el modelo de juego estático, sin embargo, no
podemos investigar cómo el cambio de la recom-
Fig. 14. Parte periódica y parte transitoria para un jue- pensa se introduce por un cambio del attractor o
go de una sola persona, dos árboles. dinámica transitoria. El proceso evolutivo de cómo
En cada juego LD para una sola persona pre- las estrategias cambian la dinámica no pueden ser
sentado en este documento, la dinámica del juego analizada. La distinción entre gran innovación (co-
observada en cada colina cambia su patrón con la mo desvío) y la mejora mínima, que es especialmen-
generación, a través de la evolución de estrategias.
11 En el documento original se encuentra escrito bifurca-
El efecto de la evolución de la dinámica del juego
tion que en español se puede traducir como bifurcación cuyo
se puede clasicar en los dos siguientes tipos:
signicado es división de una cosa en dos ramales, brazos o
1.Evolución que cambia el patrón de la parte del puntas, en este caso se toma su sinónimo que es desvío

25
te importante en los juegos con varios jugadores, no Las acción del jugador está determinado únicamen-
puede ser entendido. te por el sub espacio en el punto de la órbita pre-
sente (x, y) reside. Por su puesto estos hiperplanos
son diferentes para cada jugador. Por ejemplo, la
6.2 Relación entre la dinámica y dimensión del espacio de GP es 2 cuando un juego
de LD se compone de una persona y un árbol (N =
las estrategias de juego 1, M = 1, A = 0, 1).Este espacio de GP se divide
en dos sub-espacios por una línea recta (es decir,
En esta sección, discutimos la relación entre la
un hiperplano de dos dimensiones) denida por la
toma de decisiones de los jugadores y la dinámica
ecuación mtv0 (x, y) = mtv1 (x, y). El jugador selec-
de juego. La teoría del juego estático por lo general
ciona la acción 0 si la fase actual se encuentra den-
se ocupa de la estructura matemática de la función
(x, y) Rnm+n |mtvp (x, y) >

tro del sub-espacio

R
de ganancias (o pagos) de cada jugador: (espacio de
mtvq (x, y)y la acción 1 en caso contrario. De es-
estrategias) (pagos). Para el juego LD, pode-
ta manera, la estructura de partición de espacio de
mos describirlo también de la siguiente manera
GP y la fase actual determina el punto orbital en la
siguiente fase única, y una partición de espacio GP
A2 → R (iN )
tal permite al jugador seleccionar su acción para
cualquier estado de juego dado.
donde A es el conjunto de acciones posibles, N el
En general, podemos utilizar una decisión más
conjunto de jugadores, y R representa el pago en
complicada haciendo la función de mapas con la
cada ronda del juego LD. Si asumimos que los ju-
motivación de dimensión mayor que 1 que divide
gadores tienen suciente potencia de cálculo para
el espacio GP en sub-espacios con varios hipersu-
tener en cuenta las acciones de todos los jugadores
percies (es decir, no necesariamente hiperplanos).
en todas las rondas T, esta estructura también se
Con esta aplicación, el procesamiento de informa-
puede describir de la siguiente manera:
ción compleja y estrategias son posibles.
x(el espacio de parámetros de iesimo de decisio-
i
nes haciendo función) R (iN ) 6.2.1 Diagrama AGS
Donde R representa la puntuación media de todas
las rondas. Una representación de la función de pa- Aquí vamos a considerar un modelo simplicado
gos por encima viene dada por el paisaje del punta- e un juego LD de una sola persona, un solo árbol
je promedio, que se presentará más adelante. Como con el n de investigar el efecto del cambio de la
se ha indicado en el apartado anterior, la dinámica función de toma de decisión sobre el attractor de
del juego de hormigón producidas por la toma de la dinámica del juego. Hacemos dos simplicacio-
decisiones de los jugadores es ignorado en las fun- nes. Primero, el jugador nunca se reere a su pro-
ciones de pago anteriores. Por lo tanto, no podemos pio estado, y. Es decir, el jugador toma su decisión
hablar sobre el papel que la estructura de la diná- teniendo en cuenta solamente el tamaño del árbol.
mica del juego juega en la evolución de la toma de Segundo, el jugador corta el árbol si su tamaño ex-
decisiones. cede un cierto valor, llamado valor de decisión, xd
Por otro lado, la estructura que implica la toma 12 . El valor de decisión determina de forma única
de decisiones de los jugadores y la dinámica del jue- la serie de tiempo de la fase (x, y). El attractor de
go es investigado usando el diagrama de AGS a ser la serie de tiempo puede corresponder a un pun-
introducidos en Sección 6.2.1. Para prepararse pa- to jo, periódico, cuasi-periódico, o el movimiento
ra su discusión, vamos interpretar el juego de DS caótico, en función de la ley dinámica (incluyendo
como una órbita en el espacio de fases. la ley natural) del sistema.
La dinámica del juego de DS son descritos por Como en un diagrama de desvío, hemos trazado
m n
 
las series de tiempo de x R+ e y R+ . Lla- 12 La decisión de valor x se introduce estipulando x =
d d
memos al espacio de fase(m + n) dimensional del
−(ξ1 − ξ0 )/(n1 − n2 )para los parámetros en la función de to-
entorno de juego = espacio del jugador (GD), por ma de decisión. Esto se puede ver observando los dos puntos
simplicidad. La dinámica del juego corresponde a siguientes:

una órbita en el espacio GP. 1. xd debe satisfacer la condiciónmtv0 (x, y) =


En el presente trabajo, cada mapa de motivación mtv1 (x, y), porque el cambio de una decisión del
jugador entre la acción 0 y acción 1 ocurre en ese
en la toma de decisión la función está dada por un
punto.
solo mapa de dimensión (Sección 4.3.2), y el espacio
2. Los parámetros que caracterizan referencia al propio
se divide GP en varios sus espacios por los siguien-
jugador se establecen comoθ0 = θ1 = 0,0 , porque el
tes (m + n − 1)Dimensiones hiperplano: jugador se supone que se reere únicamente al tamaño
del árbol.

mtvp (x, y) = mtvq (x, y)(p, qA, p6=q) Así, el jugador cortará el árbol si y solo si x >xd

26
el valor x en el attractor en la g.15 (a), como una gura un diagrama AGS. (B) paisaje de la puntuación
función de xd . La gura muestra cómo el attractor promedio: la puntuación media se representa como una
de la dinámica del juego cambia con el parámetro función del valor de decisión xd . La puntuación media
de la función de toma de decisiones. Llamemos a es la puntuación que el jugador recibe durante el tiempo
tal gura un diagrama AGS (la transición del at-
que x está en un attractor.
El diagrama AGS muestra el cambio del attrac-
tractor de la dinámica del juego frente al cambio
tor con el cambio del parámetro de control, como
de la estrategia). Con el diagrama de AGS, se pue-
el diagrama de desvío a veces utilizado en el análi-
de estudiar cómo la naturaleza de la dinámica del
sis de sistemas dinámicos. Este diagrama es ecaz
juego cambia entre varios estados (dinámica de jue-
para extraer características de los sistemas dinámi-
go punto jo/periódico/caótico o dinámica de juego
cos del juego DS. Sin embargo, el diagrama AGS
productivo/improductivo, etc.) con un cambio en la
posee un signicado adicional a la de diagrama de
toma de decisiones.
desvío. La diferencia radica en la decisión controla-
Las dos siguientes características de la g.15 (a)
da por los parámetros de control. En el juego DS,
son:
el parámetro de control viene dada por el tomador
1. Para cada valor de decisión, su respectivo attrac-
de decisiones, que se encuentra dentro del sistema.
tor es siempre un ciclo periódico.
Esto contrasta con el parámetro de desvío externa
2. Hay número innito de mesetas, en la que los at-
en los sistemas dinámicos. En otras palabras, lo que
tractores permanecen sin cambios durante un rango
en realidad observamos attractor entre los attrac-
de valores de decisión. Para ejemplos de tales me-
tors en el diagrama AGS es decidido por el jugador
setas, observe el período de 2 y período 3 de las
ya existente en el sistema.
mesetas en la Fig. 15 (a).
Corresponde a la Fig. (a), la puntuación media
En la simulación de la de una sola persona, juego
que el jugador obtiene durante la parte atractor de
de LD de un árbol (Sección 5.2), el periodo de 2
la dinámica se representa en la Fig. 15 (b) como una
attractor de la dinámica de la población x domi-
función del valor de decisión xd . Llamamos a este
na para muchas generaciones (hasta la generación
diagrama el paisaje de puntaje promedio. El valor
3600va). Este attractor corresponde a los dos seg-
de decisión óptima parece existir en la meseta pe-
mentos paralelos trazados alrededor xd = 0,8 en
ríodo de 2 alrededor de 0,8, por lo que podemos ver
la Fig. 15 (a). (Nos referimos a tales de segmentos
con la magnitud de esta gura. En consecuencia,
paralelos como meseta).
la mejor estrategia para el jugador parece construir
este periodo 2 dinámico, que de hecho se observa en
la etapa temprana de la simulación juego LD. Sin
embargo, al examinar el primer plano de la parte
izquierda de esta meseta periodo-2 en la Fig. 15 (a)
(indicada por la echa con (L)), innidad de me-
setas se encuentran acumulando allí, donde existen
dinámicas más rentables que los de periodo 2.

6.2.2 Estructura de la dinámica de los


diagramas AGS
Vamos a estudiar el diagrama AGS en la Fig. 15
(a) en más detalle. Fig. 16 (a) es un primer plano
de la parte de la gura 15 (a) alrededor de la e-
cha indicada por L (desde xd = 0,621 hasta 0.623).
Fig. 16 (b) es un primer plano de la parte límite
Fig. 15. (a) Diagrama AGS de un juego de LD de una de la gura. 16 (a) indicada por la echa con P,
sola persona, un solo árbol. Se representa en cambio de y (c) es un primer plano de (b) y (d) de (c). Esta
estrategia del attractor. En esta gura, el jugador de- secuencia de guras muestra que esta parte límite,
rriba el árbol cuando el tamaño del árbol,x, excede el junto al dominio período de 2, tiene una estructura
valor de decisión xd . Un conjunto de valores de x en el fractal , y contiene attractors periódicos innitos.
atractor (todos los valores que x toma entre las rondas Llamamos a este dominio de la región L. Las piezas
200o y 400o) se representan con el valor de decisión re-
marcadas 11, 13 y 15 en la Fig. 16 (c) corresponden
presentado por el eje horizontal con un incremento de 13
a la dinámica de los períodos de 11, 13 y 15.
0,0025. Por ejemplo, los dos segmentos de rectas para-
lelas alrededor x = 0,8 muestran que la dinámica de x 13 El período aumenta en saltos de 2 a medida que aumenta
con atraídos por el ciclo de periodo 2 entre los valores xd . Esto es debido a la existencia de la estructura similar en
de alrededor de 0,3 y 0,6. Llamamos a este tipo de - la parte inferior, R, en la Fig. 16 (a). Tal estructura de la

27
dominios fractales como el dominio L de la gura.
15 (a).
14

6.2.3 El efecto de la estructura diná-


mica en la evolución
El paisaje del puntaje promedio exhiben una es-
tructura fractal completa si consideramos solamen-
te la parte del attractor de la dinámica del juego
(ver Fig. 18 (a)). Por otra parte, la puntuación me-
dia de un número nito de rondas, incluyendo la
parte transitoria, puede presentar una estructura
más complicada, aunque consta de un número ni-
to de mesetas (comparar Fig. 18 (b) con la Fig. 18
(a))

Fig. 16. Estructura fractal del diagrama AGS: (a)


primer plano de una parte de la Fig. 15 (a) (desde
xd = 0, 621 hasta0, 623); (B) primer plano de la región
indicada por Q en (a); (C) primer plano de q en (b); Fig. 17. Estructura fractal en el paisaje puntuación pro-
(D) primer plano de Q´´ en (c). Como se muestra en medio: (a) primer plano de la parte desde xd = 0, 6221
(a) - (d), el lado izquierdo de la meseta período 2 tiene hasta0, 62215 en la Fig. 15 (b); (B) primer plano de la
una estructura fractal y contiene innito attractors parte indicada como Q en (a); (C) es la de (b). Como se
periódicos. muestra en (a) - (c), el paisaje valor medio contiene una
estructura fractal alrededor del límite para el dominio
Una estructura fractal también existe en el pai- período 2.
saje del puntaje promedio, como lo demuestran los Aquí, la Fig. 18 muestra los paisajes de la mues-

sucesivos primeros planos dados en las guras. 17 tra promedio de puntuación representan como fun-

(a) - (d). En el dominio de L con la acumulación ciones del parámetro η11 Estas cifras se obtuvieron

de attractors periódicos innitos, algunos attrac- de la función de toma de decisiones de un jugador

tors tienen una puntuación media más alta que la que aparece realmente en un juego de LD de una

del periodo 2. En particular, la puntuación media 14 Estas estructuras locales del diagrama AGS y el diagra-
más alta es lograda en el periodo de dominio 11. ma de puntuación promedio en este juego LD son ejemplos
Este juego LD de una sola persona tiene muchos de escalera de la llamada del diablo (por ejemplo, en la fun-
ción de Cantor), una característica general observada en la
adición de período es bastante común en cierres de fase de fase de bloqueo de la cuasi-periodicidad (véase, por ejemplo,
causi-periodicidad [9]. [11 , 14]).

28
sola persona, un árbol, aunque este jugador no per- LD juego, aunque este jugador no pertenece a las
tenece a las especies más aptas especies más aptas. Como se muestra en la Fig.18
(a) (con la parte del atractor solamente), el prome-
dio de la puntuación del jugador aumenta monóto-
namente con η 11. Figura 18 (a)' es la correspon-
diente AGS diagrama. (En este LD juego de una so-
la persona, cualquier función de toma de decisiones
resulta en un estado periódico como un atractor, y
el AGS diagrama siempre se compone de segmentos
de rectas paralelas.)
El paisaje del puntaje promedio para un número
nito de rondas incluyendo la parte transitoria, por
otra parte, como está trazada en la Figura. 18(b),
no cambia monótonamente con η 11, y tiene un pai-
saje accidentado. En este caso, no sólo la naturaleza
del atractor sino también la ruta como el atractor
está alcanzando a tener cierta importancia para la
evolución. Por supuesto, el proceso evolutivo diere
de acuerdo con el número de iteraciones del juego.
Por ejemplo, la importancia de la parte atractor
aumenta a medida que el número de iteraciones au-
menta.

Fig.18. Estructura complicada en el paisaje puntuación


promedio: (a) y (b) son los paisajes promedio de pun-
tuaciónbasado en la función de toma de decisiones de un
jugador que aparece en la simulación de una sola per-
sona, un árbol (la generación 5848a). (A)0 es el diagra-
ma correspondiente AGS. En cada gura, la puntuación
media en el juego LD se representa como una función
del parámetro de la función de toma de decisiones del Figura 1: a)
jugador,η11 = 0,193352 . (A) Da la puntuación media
sólo con la parte attractor de la dinámica, mientras que
(b) da la puntuación media de todas las rondas de la
primera a la 400a, incluyendo la parte transitoria. El
crecimiento monótono del escalar, observado en (a) se
sustituye por una estructura complicada pero nita en
(b). El jugador en cuestión tiene un valor de decisión
η11 = 0,193352, como se indica por la echa en (b), y
no es de las especies más apto.

Como se muestra en la Fig. 18 (a) (con la par-


te del attractor solamente), promedio de puntua-
ción aumenta monofónicamente del jugador conη11
. Fig. 18 (a) es el diagrama correspondiente AGS.
(En este juego de una sola persona LD, cualquier
toma de decisiones resultados de la función en un
estado periódico como un attractor, y el diagrama Figura 2: b)
de AGS siempre se compone de segmentos de rectas
paralelas). Tenga en cuenta que un paisaje complejo también

29
se observa para las especies más aptas. Figura.19
15 se muestra en este paisaje, el valor óptimo de de-
es un ejemplo del paisaje de puntación promedio cisión satisfactoria xd ≤ 0,75 para el mapa de una
de edad trazada para la función de toma de de- persona de tipo lineal de juego LD.
cisión de las especies más aptas (ID-2A44) en la
generación 3605th. La puntuación media se repre-
senta como una función del parámetro de decisión
η 10, en (a) para la parte atractor y en (b) sobre
400 rondas con la parte transitoria. (Por supuesto,
en los juegos LD evolutivos en este documento, la
parte transitoria no es ignorada cuando se calcula
la puntuación media de un leñador.) Aquí, las espe-
cies en la gura adoptan un atractor período-7 de
los juegos dinámicos. Este período-7 dinámico co-
rresponde a la meseta del período-7 en la Figura 15
(a), y es más productivo para el jugador que el pe-
ríodo 2 dinámico, aunque es menos productivo que
la dinámica en el dominio L. Como se muestra en la
Sección 5.2.4, esta especie domina la población por
muchas generaciones (acerca de 2200). ¾Por qué es
capaz de dominar durante tanto tiempo esta espe-
cie? La respuesta se da en el paisaje de la Figura 19
(b) obtenidos para un número nito de rondas con
transitorios. Como se muestra en la gura, la pun-
tuación tiene un máximo local en torno a la meseta
η 11 = 0. 193.352. Aunque la estrategia con este
valor de decisión no es la estrategia optima global,
se necesita una gran cantidad de cambio mutacio-
nal para escapar de este máximo local. En un juego Figura 3: Figura 20. El-mapa-tipo lineal de una sola
con un número nito de rondas, el paisaje es acci- persona LD juego. (a) El diagrama de AGS para
dentado, en contraste con el caso de una innidad el valor de decisión xd. Atractores cuasi periódicos
de rondas, y el proceso de evolución no alcanza ne- 2
aparecen para xd ≤ 3 . (b) El paisaje del puntaje
cesariamente la estrategia óptima fácilmente. promedio desde la ronda 200th a la 400th. El paisaje
está dada por una línea recta de xd ≤ 2.
6.2.4 Estructura dinámica de mapa ti-
po lineal de un juego LD En el juego LD-mapa de tipo lineal de la Sec-
ción 5.2.6, hemos observado la evolución rápida y
Figura 20 (a) es el diagrama AGS de una sola
sin contratiempos hacia la optimización del estado
persona-mapa-juego de tipo lineal LD. Esta gura
físico. Tal evolución es causada por la estructura no
muestra quela dinámicos son atraído a movimiento
accidentada que se ve en la Fig. 20.
2
cuasi periódico si xd ≤
3 , aunque el AGS diagra-
ma del juego LD- mapa de tipo convexo tiene un
atractor periódico para cualquier valor de decisión
(Fig. 15 (a)). Figura.20 (b) es el correspondiente
paisaje de puntuación media, donde el paisaje no
2
es gradual, sino una línea recta de xd ≤ 3 . Como
15 Figura. 19. Efecto de la estructura de los juegos dinámi-
cos sobre la evolución del jugador. (a) y (b) son los paisajes
promedio de puntuación construidos usando la función de
toma de decisiones del jugador que es de las especies más
aptas (ID-2A44) de la generación 3605a en la actual per-
sona, un árbol de juego LD real de la Sección 5.2.4. El eje
horizontal corresponde al parámetro de la función de toma
de decisiones, η 10, mientras que el eje vertical corresponde a
la puntuación media. En (a), el valor medio sólo de la parte
periódica se representa. La puntuación media para todas las
rondas, incluyendo la parte transitoria (de la primera ronda
para el 400th), se representa en (b). El valor real para de
este jugador η 10 es 0,114588, como es indicado por la echa
en ambas guras.

30
7. Discusión descripción del sistema de tres campos es bastante
simplicada porque nosotros ignoraremos el siste-
ma social medieval, el clima, y las cuestiones de la
7.1 Estructura dinámica y la alimentación del ganado y de los excrementos [24].)
evolución de las estrategias de Aproximadamente hablando, las acciones facti-
bles en el sistema de tres campos se pueden clasi-
juegos DS car en el campo dando el campo del año de descanso
(barbecho)
16 y utilizando el campo para producir
En orden a discutir la relación entre la estruc-
una cosecha.
tura de juegos dinámicos DS y la evolución de las
El principal problema aquí es en qué orden es-
estrategias, consideremos, como un ejemplo real, el
tas acciones se llevan a cabo. Además, también es
sistema de tres campos de la rotación de cultivos
un problema importante determinar cuántas partes
que prevalecía en Europa Occidental medieval [24]. iguales de las tierras de cultivo deben ser divididas
Esta situación parece tener alguna relación con
dentro. En hecho, estas dos cuestiones son insepara-
el punto de vista de los juegos DS, ya que aquí
ble. Por ejemplo, supongamos que la mejor manera
de- cisión de un jugador tiene algún efecto sobre
de manejar las tierras de cultivo es sentar una par-
las variables que determinan el entorno del juego,
cela determinada de tierra bajo barbecho durante
mientras que el estado de estas variables afecta el
tres años consecutivos, y luego producir un cultivo
estado del jugador (por ejemplo, el estado nutricio-
durante cuatro años consecutivos, y repetir este ci-
nal del jugador, lo que podría ser cambiado por la
clo de 7 años indenidamente. A continuación, las
cantidad de cultivos disponibles).
tierras de cultivo deben ser divididas en siete (o un
El sistema de tres campos, que era una modica-
múltiplo de siete) con el n de obtener una cosecha
ción del sistema de dos campos que habían prevale-
cada año lo más uniformemente posible. La acción
cido en todo el Mediterráneo era un método efectivo
de dejar la tierra sin utilizar durante 3 años permite
para los agricultores o campesinos durante ese tiem-
al campo a recuperar su creciente potencial, aunque
po para gestionar dinámicamente los estados de sus
no ofrece ningún benecio a corto plazo, mientras
tierras de cultivo y recolección de los cultivos cada
que la acción del uso de la tierra para levantar las
año consecutivamente. Debido a esta la innovación,
cosechas, por supuesto, da la recompensa inmedia-
ellos fueron capaces de mantener la fertilidad de las
ta, sino que agota los nutrientes del suelo. En el sis-
tierras de cultivo, para evitar que la humedad dis-
tema de tres campos, la dinámica del estado de los
minuyera demasiado, y para controlar las malezas.
campos es de aproximadamente cíclico con un pe-
Con el sistema de tres campos, cada tierra de cul-
riodo de 3 años. Sin embargo, es difícil de creer que
tivo se divide en tres partes iguales, el campo de
el periodo del crecimiento de cada tipo de cultivo y
invierno, el campo de verano, y el barbecho, y es-
el periodo de la dinámica del estado de los campos
tos tres campos se utilizan alternativamente con un
son precisamente periódica. Si se utiliza algún tipo
período de 3 años. En el caso del sistema de dos
de ajuste de la dinámica periódicas con ecacia, un
campos, los campos agrícolas están divididos en el
sistema más productivo puede lograrse mediante la
campo del verano y el barbecho, utilizados alterna-
adopción de la dinámica más complicados, proba-
tivamente con un período de 2 años. (Además, en el
blemente, con un período más largo. Por supuesto,
momento de la revolución industrial, apareció una
la evolución de una mejor estrategia puede requerir
rotación de cultivos de 4 años, llamado el "Siste-
complicadas innovaciones, y los agricultores tienen
ma Norfolk" que incluye un año de crecimiento ali-
que pagar una estrategia con algunos óptimos loca-
mento para el ganado. Sin embargo, la estructura
les.
y el concepto de este sistema eran completamente
Cuando un campo estéril se mantiene como bar-
diferente de el de dos o tres sistemas de campos.)
becho durante un cierto periodo de tiempo, existe
No todas las áreas que utilizan los dos sistemas de
la posibilidad de que el campo recuperará su pro-
campo cambia al sistema de tres campos, porque
ductividad. Por otro lado, si el campo se mantiene
esta innovación fue causada en parte por el cambio
como barbecho demasiado tiempo, a largo alcance
climático que se produjo cuando el sistema de dos
su productividad disminuirá. Se necesita un equi-
campos se extendió desde la región del Mediterrá-
librio cuidadoso para gestionar la dinámica de es-
neo en occidental Europa. Sin embargo, es seguro
te entorno de juego. Un agricultor puede intentar
que el desarrollo del sistema de tres campos se basa
cambiar el actual sistema período de 3 en uno de
en la experiencia del sistema de dos campos.
periodo-4 o de periodo-5. Sin embargo, entre estos
Ahora, consideremos el sistema de tres campos,
que apareció como una mejora del sistema de dos 16 A pesar de que es el año de descanso, un cierto grado de
campos, desde el punto de vista de la modelización mano de obra es necesaria, tales como la eliminación de las
de juegos DS. (Tenga en cuenta que, la siguiente malas hierbas, arar, lo que permite que el ganado paste.

31
sistemas, la probabilidad de que se puede encon- jugadores y el cambio resultante de los juegos diná-
trar sistemas más rentables que el sistema de tres micos. La teoría de juegos puede examinar si alguna
campos es posiblemente pequeña. El plazo de 2 o estrategia es una solución racional (por ejemplo, un
3-dinámica es, por decirlo así, la dinámica meta es- punto de equilibrio) a el nivel de la estructura de
tables para los agricultores. pagos. La ejecución de la estrategia, sin embargo,
Nosotros hemos considerado hasta ahora el sis- puede ser difícil de realizar a través de la evolución
tema de tres campos desde el punto de vista de si la solución en la estructura de pagos se encuentra
la innovación considerando la dinámica del entorno dentro de un dominio caótico en el AGS diagrama,
de juego DS en una sola persona. Tal considera- en el sentido de que el tamaño de algoritmos para
ción desde el punto de vista de juego DS tiene una calcular el pago no puede ser acortado por cualquier
ventaja en caso consideramos los problemas del jue- método.
go en el mundo real. Al modelar concretamente la
situación real como un juego DS que describe con-
cretamente la naturaleza de la dinámica observa- 7.2 Modelos de la teoría de jue-
da en el ambiente del juego, podemos determinar
teóricamente una estrategia con una dinámica de gos y modelos de la física
juego adecuadas. Por ejemplo, supongamos que el
conjunto de estrategias - las prácticas de toma de Por último, vamos a discutir la ventaja general

decisiones de los jugadores - que determina la diná- del modelo de juego de DS sobre otros modelos. La

mica de juego (por ejemplo, el periodo 3 dinámicas modelación de juegos DS es adecuado para estudiar

antes mencionadas) se da como una regla explícita. la evolución / aprendizaje de los responsables de las

La teoría de juegos tradicional es capaz de determi- decisiones que existen en el mundo que pueden ser

nar la solución en el espacio de estrategias, al me- descritas por un sistema dinámico. Modelos de la

nos, siempre se trata de una sola persona o de dos teoría de juegos sin duda tiene una resistencia en el

personas en juegos de suma cero. Por otra parte, tratamiento de los problemas de los tomadores de

podemos descubrir dónde existen estrategias me- decisiones que interactúan entre sí. Por otra parte,

taestables en el espacio de estrategias a condición las descripciones con los modelos de sistemas diná-

de que la distancia entre las estrategias pueda ser micos son relevantes para investigar la naturaleza

denidas. Sin embargo, la teoría de juegos conven- de nuestro mundo dinámico del exterior.

cional no puede proporcionar cualquier información Mediante la aplicación de los modelos de la físi-

acerca de qué tipo de estrategias están permitidos ca, podemos saber, por ejemplo, las trayectorias de

en la dinámica del mundo. Por ejemplo, la teoría todos los posibles estados físicos. Sin embargo, el

de juegos puede conrmar que un sistema de siete punto de vista del juego es indispensable si existe

campos es una solución si se da como un elemento decisiones de jugadores en el curso de la dinámi-

del conjunto de estrategias, pero, de otra manera, ca cuyas decisiones se basan en sus propias normas

no puede encontrar esta solución en principio. Por de racionalidad y cuyas decisiones pueden afectar

otro lado, cuando se describe un modelo como un a los estados físicos. Sólo desde el punto de vista

juego de DS, se puede demostrar que no es una deci- teórico podemos considerar cuales estados serán se-

sión cuyo resultado es un ciclo de período 7 median- leccionado por los fabricantes de decisión entre los

te el uso de, por ejemplo, un AGS diagrama, que se estados físicamente realizable, al menos en el mo-

basa en el método utilizado en el sistema dinámi- mento actual. En los sistemas dinámicos, se puede

co (discreto).
17 Otra ventaja del punto de vista de estudiar el cambio de la dinámica con el cambio de

un DS juego es que nosotros podemos investigar la parámetros de control externo (bifurcación), pero

relación entre la evolución de las estrategias de los no puedo discutir que el control sea posible dentro
del sistema. Para estudiar el comportamiento co-
17 20 Juegos dinamicos en los juegos de DS pueden ser des- lectivo de un grupo de jugadores (por ejemplo, la
critos por el estado inicial, (x, y) , y por la composicion de
dinámica de los precios de las acciones), los métodos
dos tipos de mapas (Sección 2.4), la ley natural, u , y el
de, por ejemplo, la mecánica estadística, en el que
efecto de las acciones de los jugadores, v , de la siguiente
manera: los jugadores pueden ser considerados como partí-
· · · V u v u v u v u. culas estadísticamente, pueden ser útiles. (En otras
Aquí, cada v diere de acuerdo con el valor de (x (t), y
palabras, la individualidad de cada jugador podría
(t)) (t = 0 , 1 , 2 , ... ) . (Más precisamente, u (x (0), y (0))
, u (v (u (x (0), y (0)))) , u (v (u (v (u (x (0) , y (0)))))),
ser descartado.) Sin embargo, para el estudio de los
··· ) . Por ejemplo, en el de una sola persona, de dos árboles grupos de organismos vivos o de la sociedad huma-
de juego LD, v puede ser v1 (cayó del árbol 1), v2 (cayó del na, la distinción entre partículas que interactúan e
árbol 2) o el operador de identidad (cayó ningún árbol). Un
interacción de los tomadores de decisiones es esen-
ejemplo del material compuesto correspondiente al mapa de
arriba es tan siguiente: cial. Los último son activo agentes en sus entornos
· · · V2 u u v1 u v2 u u u v2 u v1 u. de juego y cada uno toma decisiones, básicamente,

32
a n de aumentar su utilidad (tness).
18 Por otro aprendizaje, pueden ser afectado mediante la explo-
lado, las descripciones que consisten en modelos de ración de la estructura del diagrama AGS.
teoría de juegos no son anes a la dinámica de na-
turaleza, y, por lo tanto, no pueden afectar a cues-
tiones que pueden ser estudiadas sólo en los niveles
de la dinámica. Por ejemplo, el juego LD-mapa de
tipo convexo, que tiene la escalera del diablo en la
AGS diagrama, muestra los fenómenos evolutivos
Agradecimientos
con una innovación gradual.
Por otra parte, la evolución es suave, con rápida
convergencia a un óptimo acondicionamiento físico,
Los autores desean agradecer a T. Ikegami y S.
para la simple estructura dinámica en el Mapa de ti-
Sasa por las útiles discusiones. Este trabajo es par-
po lineal LD juegos. Como jado en Sección 4.5, un
cialmente apoyado por subvenciones en ayuda a
juego de mapa de tipo lineal tiene la misma estruc-
la Investigación Cientíca del Ministerio de Edu-
tura que un juego de mapa de tipo convexo desde el
cación, Ciencia y Cultura de Japón. El primer
punto de vista estática. Sin embargo, una diferen-
autor es apoyado por la Sociedad Japonesa para
cia aparece a menudo en el nivel de la dinámica del
la Promoción de la Ciencia bajo el Contrato No.
juego y la evolución de las estrategias (A nivel de
RFTF96I00102.
los juegos con varias personas, la presente modica-
ción no elimina el dilema social común que existe en
la versión anterior). Es decir, varios diferentes jue-
gos de DS se clasican en el mismo juego estático
si modelamos por la teoría de juegos convencional,
pero existe la posibilidad de que estos juegos ten-
gan completamente diferentes naturalezas a nivel
de la estructura dinámica, especialmente cuando la
evolución y el aprendizaje están involucrados.
19

7.3 Resumen
Lo que se necesita en el modelado de juego DS
es solamente la descripción de g y f. Con estos,
simplemente podemos modelar, en cierto sentido,
situaciones comunes donde las decisiones están in-
mersos en un mundo que es básicamente sujeto a
las leyes naturales. Por supuesto, esta simplicidad Figura 4: Figura 21. gráco de la aptitud en las
de la modelación no implica necesariamente facili- primeras generaciones de un juego LD de una sola
tación en el análisis. Sin embargo, las descripciones persona con dos árboles de generación (1 a 30).
desde la perspectiva de los juegos DS y el análisis
utilizando AGS diagrama nos permiten investigar
la relación entre la naturaleza de los juegos diná-
micos y la evolución de las estrategias. DS juegos
puede hacer frente a los problemas que involucran
ambos aspectos de nuestro mundo: el mundo co- Apéndice A. Gestión
mo un sistema dinámico y el mundo habitado por
los sujetos tomadores de decisiones. Ambos aspec- de múltiples recursos
tos son indispensables incluso en juegos de una sola
persona, porque los jugadores de decisión fabrica- dinámicos
ción mecanismos, cambiando mediante evolución y

18 Por supuesto, es una cuestión importante cómo un to-


mador de decisiones - o un optimizador autónomo - emerge
de un sistema descrito por los sistemas dinámicos puros, pero En esta sección, se presentan los resultados de
esto está fuera del alcance del presente documento. una sola persona, de un juego LD de dos árboles de
19 Esta diferencia se hace más grave en un juego de múl-
mapa de tipo convexo para estudiar cómo un juga-
tiple persona, como la formación de cooperación se vuelve
importante, como se describirá en los documentos siguien- dor maneja múltiples recursos dinámicos. Figura.21
tes. es el gráco del estado físico para esta simulación.

33
A.1 El aumento de un árbol en
particular: el comportamiento de
las especies más aptas en las pri-
meras generaciones

Las especies más aptos en la primera generación


se comporta como en el diagrama de acción (Fig. 22
(a)). El jugador de esta especie generalmente corta
árbol 1 para varias rondas sucesivamente, y como
resultado, este árbol se hace más pequeña y más
pequeña (Fig. 22 (b)) al igual que la cantidad de
madera que se obtiene de cada corte (Fig. 22 (c)).
Por otro lado, el árbol 2 se hace más grande durante
este tiempo. Entonces, el jugador corta el árbol 2, y
por lo tanto obtiene un gran benecio (Fig. 22 (b)).

En particular, se logra elevar el árbol 2 y gana


un gran benecio de ella. A partir de la primera
ronda hasta la nal, nunca simplemente no hace
nada hace nada, pero en su mayoría se corta el árbol
1 y permite que el árbol 2 a crecer, cortándolo sólo
de vez en cuando. En esta generación, los jugadores
de otras especies con menor aptitud cortar sólo un
árbol en particular o cortado ningún árbol.

Figura 5: Figura. 22. La especie más apta de la


primera generación. (a) El diagrama de acción. La
acción del jugador se representa como una función
del número redondo. Además de las acciones 0 y 1
(no hacer nada y el árbol de corte 1), la acción 2
(cortar el árbol 2) está disponible para el jugador en
este juego. (b) El gráco de recursos. (c) El estado
gráco.
Figura 6: Figura 23. La evolución a medida que
aumenta el número de generación. Las guras sobre

Como en el caso de un juego de LD de un ár- el lado izquierdo están las cartas de acción y los de

bol, de una sola persona, el estado físico incrementa la derecha son las tablas de recursos. Las guras

valores escalonada y monótonamente. Las especies en la (a) se corresponden con el juego LD para

más aptos pueden cambiar en las generaciones pos- el jugador de las especies más aptas en la octava

teriores, pero el cambio no es frecuente, y el consi- generación, aquellos en la (b) para ese en el 13th

guiente aumento del valor del estado físico se con- Generacion, y aquellos en la (c) para ese en el

vierte en mucho más pequeño. 317th generación.

34
A.2 La evolución hacia la opti- [6] D. Fundenberg, J. Tirole, la teoría de juegos,
MIT Press, Cambridge, MA, 1992.
mización
[7] G. Hardin, La tragedia de los comunes, Ciencia
Un esbozo de la evolución en este unipersonal
162 (1968) 1243-1248.
juego de dos LD árbol es el siguiente: Figura. 24.
La evolución a medida que aumenta el número de [8] T. Ikegami, M. Taiji, imitación y la cooperación

generación. Estos son los grácos de estado corres- en reconocedores dinámicas acopladas: avances
pondientes a las tablas de acción y de recursos en en la vida articial, en: D. Floreano, J. Nicoud,
la Fig. 23. F. Mondada (Eds.), Actas de la V Conferencia
Europea, ECAL '99, Lausana, Suiza, Springer,
1. La frecuencia de corte del árbol 2 aumenta,
Berlín,1999.
mientras que la de corte 1 disminuye los árbo-
les. Como resultado, el jugador es capaz de ob- [9] K. Kaneko, Colapso de Tori y Génesis de caos

tener algún benecio también de árbol 2 (Fig. en sistemas disipativos, World Scientic Pu-
23 (a)). blishers, Singapur, 1986, 264 pp. (Basado en
la tesis de 1983).
2. El jugador inicia la gestión de periodos dinámi-
cos para los tamaños de los árboles que le apor- [10] J. Maynard Smith, la evolución y la teoría de

tan la mejor ganancia después sobre la ronda juegos, Cambridge University Press, Cambrid-

15, durante el cual redondea las frecuencias de ge, 1982.

la tala de árboles y el árbol 1 y 2 son igua-


[11] J. Nagumo, S. Sato, En una característica de
les (Fig. 23 (b)). Se corta los dos árboles por
respuesta de un modelo matemático de la neu-
turnos.
rona, Kybernetik 10 (1972) 155-164.

3. El número de la ronda de los cuales la primera


[12] J. von Neumann, O. Morgenstern, Teoría de
dinámica se convierte en disminuciones perió-
Juegos y Comportamiento Económico, Prince-
dicas (Fig. 23 (c)). También, como el número
ton University Press, Princeton, Nueva Jersey,
de generación aumenta, la ronda en la que el
1944.
estado del jugador llega por primera vez su va-
lor máximo (aproximadamente 3.05) se hace [13] A. Neymann, la complejidad acotada justica
antes (Fig. 24 (a) - (c)). la cooperación en el dilema del prisionero de
nitamente, Econ. Letón. 19 (1985) 227-230.
La dinámica para cada uno de los dos árboles (que
se muestra en el gráco de recursos (Fig. 23 (c))) [14] E. Ott, Caos en sistemas dinámicos, Cambrid-
son casi los mismos que los observados en el juego ge University Press, Cambridge, 1993.
LD de un árbol en el presente documento (Fig. 9
[15] A. Rapoport, La teoría matemática de la in-
(b)).
teracción motivación de los dos individuos,
Bull. Mates. Biophys. 9 (1947) 17- 27.

Referencias: [16] N. Rashevsky, un problema de matemáticas


en biofísica de las interacciones de dos o más
individuos que pueden ser de interés en la so-
[1] RJ Aumann, Búsqueda de consenso, Ann. Es-
ciología matemática, Bull. Mates. Biophys. 9
tadístico. 4 (1976) 1236-1239.
(1947) 9-15.
[2] RJ Aumann, la racionalidad y la racionalidad
[17] OE Rössler, estrategias de locomoción adecua-
limitada, Nancy Conferencia L. Schwartz, JL
dos para un organismo abstracto en un entorno
Kellogg School of Management de la North-
abstracto: un enfoque relacional para la fun-
western University, 1986.
ción cerebral en Física y Matemáticas del sis-
[3] R. Axelrod, La evolución de la cooperación, Ba- tema nervioso, en: M. Conrad, W. Güttinger,
sic Books, Nueva York, 1984. M. Dalcin (Eds.) , Lecture Notes Springer en
Biomatemáticas, vol. 4, 1974, pp. 342-369.
[4] DD Davis, CA Holt, Economía Experimental,
Princeton University Press, Princeton, Nueva [18] OE Rössler, Caos en los optimizadores acopla-
Jersey, 1993. dos, Ann. NY Acad. Sci. 504 (1987) 229-240.

[5] MM inundación, algunos juegos experimenta- [19] OE Rössler, el habla Fraiberg-Lenneberg,


les, Investigación Memorando RM-789, RAND Caos, solitones y fractales, Vol. 4, No. 1, El-
Corporation, Santa Monica, CA, 1952. sevier, Amsterdam, 1994, pp. 125-131.

35
[20] A. Rubinstein, autómatas nitos jugar el dile-
ma del prisionero repetido, J. Econ. Theory 39
(1986) 83-96.

[21] H. Simon, Modelos de hombre, Wiley, Nueva


York, 1957.

[22] M. Taiji, T. Ikegami, Dinámica de los modelos


internos de juego de los jugadores, Physica D
134 (2) (1999) 253-266.

[23] E. Zermelo, Über eine del Anwendung der


Mengenlehre auf die Théorie des Schachspiels,
en: EW Hobson, AEH Love (Eds.), Actas del V
Congreso Internacional de Matemáticos, Vol.
2, Cambridge University Press, Cambridge,
1913 , pp. 501-504. [24] L. White, Tecnología
medieval y cambio social, Oxford University
Press, Londres, 1962.

36

También podría gustarte