Está en la página 1de 15

Sistemas Multiagente y Teora de Juegos

Curso: Agentes y Sistemas Multiagente


Departamento de Informtica
Universidad Nacional de San Luis (UNSL)
San Luis. Argentina
Ao 2008
1. Introduccin
Hasta el momento nos hemos enfocado en los distintos aspectos y alternativas que suelen ser consi-
derados a la hora de disear y construir un agente articial individual. Sin embargo, es sabido que a ex-
cepcin de los casos ms triviales, los sistemas suelen contener un nmero determinado de sub-sistemas
que deben interactuar de manera efectiva para llevar a cabo exitosamente sus tareas. Comenzaremos
por lo tanto a cambiar el nfasis desde el problema de cmo construir un agente a cmo construir
una sociedad de agentes.
Originalmente, el rea de investigacin en sistemas compuestos por mltiples agentes fue referen-
ciado bajo el nombre de Inteligencia Articial Distribuida (IAD). La IAD ha sido dividida histrica-
mente en dos grandes lneas: la Resolucin de Problemas Distribuida (RPD) y los Sistemas Multiagente
(SMA). Sin embargo, el trmino SMA ha adquirido ltimamente un signicado ms general y es usado
para referir a todos los tipos de sistemas compuestos de mltiples componentes (semi-)autnomas.
La RPD contituy el enfoque inicial de la IAD y consider fundamentalmente la manera en que un
problema particular poda ser dividido y resuelto por un nmero de mdulos (nodos o agentes). En este
caso, se asume que los agentes son creados por un mismo diseador y trabajan en forma conjunta para
alcanzar objetivos comunes. Los agentes son benevolentes por naturaleza, y durante la realizacin de
sus tareas estarn predispuestos a colaborar con los otros y resolver los conictos que pudieran surgir
debido a la distribucin del control, los datos o por el acceso a recursos limitados. El diseador puede
imponer un protocolo de interaccin y una estrategia para cada agente. El anlisis est centrado en
determinar los resultados sociales que se obtendrn dado el protocolo y asumiendo que los agentes
usan las estrategias impuestas.
En un SMA en cambio, el inters se centra en el comportamiento de una coleccin de agentes
autnomos posiblemente pre-existentes que pueden ser construidos por distintos diseadores y/o repre-
sentar intereses de entidades diferentes en el mundo real. En este caso, los agentes son provistos con un
protocolo de interaccin pero cada agente podr elegir su propia estrategia. De esta manera, un agente
individualista eligir la mejor estrategia para l mismo, la cual no puede ser impuesta explcitamen-
te desde el exterior. El desafo en este caso, consiste en denir mecanismos de interaccin adecuados
de manera tal que el SMA en su conjunto exhiba un comportamiento social con ciertas propiedades
deseables.
1
Para el diseo y anlisis de las propiedades de los SMAs se han adoptado distintos enfoques y met-
foras, algunos de las cuales tienen un mayor fundamento terico que otros. En este sentido, es indudable
que el rea conocida como Teora de Juegos ha provisto de una serie de herramientas invaluables para
analizar los distintos tipos de interacciones que pueden producirse en un SMA. Es por ello que en el
resto de este trabajo, analizaremos los aspectos bsicos de Teora de Juegos y sus vinculaciones ms
directas con SMAs reales. En la prxima seccin continuaremos describiendo algunas caractersticas
de los SMAs, mientras que la seccin 3 estar dedicada ntegramente a algunos conceptos bsicos de
teora de juegos que sern utilizados en otros temas vinculados a los SMAs.
2. Sistemas Multiagente
Un Sistema Multiagente (SMA) puede ser denido como una red dbilmente acoplada de resol-
vedores de problemas (agentes) que trabajan conjuntamente para resolver problemas que superan las
capacidades individuales o conocimiento de cada uno de ellos [3]. Algunas caractersticas distintivas
de un SMA son:
Existe ms de un agente en el sistema.
Los agentes son autnomos, distribuidos, posiblemente heterogneos y pueden ser individualistas
o cooperativos.
Cada agente tiene informacin incompleta, o capacidades limitadas para resolver el problema,
por lo que cada agente tiene un punto de vista limitado.
Un SMA es usualmente abierto y no existe un diseo centralizado.
No existe un control global del sistema.
Los datos estn descentralizados.
La computacin es asncrona.
Se provee de alguna infraestructura que especica los protocolos de comunicacin e interaccin.
El inters creciente por la investigacin en SMAs est motivado por distintas razones, entre las que
podemos citar:
La posibilidad de proveer robustez (a partir de la redundancia) y eciencia (a partir del paralelis-
mo).
Capacidad de permitir la inter-operacin de sistemas legados existentes.
La habilidad para resolver problemas en los que los datos, habilidades o el control estn distri-
budos.
Si bien los SMA proveen muchas ventajas potenciales, tambin deben dar respuesta a distintos
interrogantes:
Cmo formular, describir, descomponer y asignar problemas y sintetizar resultados entre un
grupo de agentes inteligentes?.
Cmo habilitamos a los agentes para comunicar e interactuar?. Con que lenguajes y protoco-
los?. Qu y cuando comunicar?. Qu sucede si no es posible la comunicacin?.
Cmo coordinar el comportamiento de agentes autnomos cuando existen distintos puntos de
vista sobre la resolucin de un problema, conictos por el acceso a recursos escasos o incompa-
tibilidad de objetivos?.
Cmo habilitar a los agentes individuales para representar y razonar sobre las acciones, planes
y conocimiento de los otros agentes para poder coordinar con ellos?.
En las prximas secciones, describiremos algunos conceptos bsicos de teora de juegos que nos
permitirn dar una respuesta racional a algunos de estos interrogantes.
3. Teora de Juegos y Sistemas Multiagente
La interaccin de los agentes en cualquier sistema multiagente puede ser modelada como un juego
como denido en Teora de Juegos (TJ). Un juego es una representacin formal de una situacin en
la cual un nmero de individuos (agentes o jugadores) interactan en un contexto de interdependencia
estratgica. Esto signica que cada agente tiene un control parcial de la situacin, ya que su bienestar
depende no slo de sus acciones sino tambin de las acciones realizadas por los otros agentes. Adems,
cada agente evala cun bueno es realizar las distintas acciones dependiendo de lo que esperan que
hagan los otros agentes.
La Teora de Juegos puede ser utilizada en al menos dos maneras en el diseo de SMAs articiales:
1. Diseo del agente: La TJ puede analizar las decisiones del agente y computar la utilidad esperada
para cada decisin (asumiendo que los otros agentes estn actuando ptimamente de acuerdo a la
TJ).
2. Diseo del mecanismo: Es posible denir las reglas del ambiente (el juego que los agentes deben
jugar) tal que el benecio colectivo de todos los agentes es maximizado cuando cada agente
adopta la solucin de TJ que maximiza su propia utilidad.
Como un ejemplo del primer caso, podemos decir que la TJ podra servir para que un robot deter-
mine cual es su mejor estrategia para eludir a un oponente en un campeonato de ftbol de robots. Con
respecto al diseo del mecanismo, la TJ podra ayudar a disear los protocolos para una coleccin de
ruteadores de trco de Internet, tal que cada ruteador tiene un incentivo para actuar de tal manera que
el throughput global es maximizado [5, p. 632].
La mayora del trabajo realizado en Teora de Juegos se basa en dos supuestos bsicos acerca de los
agentes. El primero es que los agentes son racionales, signicando esto que los agentes tienen ciertas
preferencias, usualmente descriptas por una funcin de utilidad numrica, y que el agente intenta maxi-
mizar esta funcin de manera tal que al hacerlo maximiza el cumplimiento de sus objetivos. El segundo
supuesto es que los agentes se comportan estratgicamente, o sea que su comportamiento est determi-
nado por su conocimiento acerca de los otros agentes. En este sentido la TJ, es una teora normativa,
que intenta preescribir cual sera la solucin de un juego, especicando cual sera el comportamiento
racional de cada agente en base a los dos supuestos anteriores.
Existen dos ramas principales en teora de Juegos: teora de juegos no cooperativa y teora de
juegos cooperativa. La teora de juegos no cooperativa (TJNC) analiza los juegos bajo la suposicin de
que no existe comunicacin entre los agentes. Cada agente acta independientemente, no existiendo la
posibilidad de establecer acuerdos o compromisos, ms all de los establecidos explcitamente por las
reglas del juego.
La teora de juegos cooperativa (TJC) en cambio, asume que existe un medio de comunicacin entre
los agentes abriendo la posibilidad de que los jugadores establezcan alianzas, acuerdos vinculantes u
otras formas de cooperacin. Al hablar de Juegos Cooperativos no debe asumirse que los agentes com-
parten los mismos intereses. Sin embargo, la posibilidad de comunicacin, permite establecer acuerdos
vinculantes en los cuales los agentes pueden cooperar obteniendo una mayor utilidad que si actuaran
por su cuenta. Esta cooperacin usualmente se limita a una discusin pre-play y al establecimiento de
acuerdos vinculantes.
Debemos hacer en este punto una aclaracin con respecto a la terminologa utilizada. En los sis-
temas multiagente cooperativos, donde los agentes comparten los mismos intereses
1
, no se excluye la
posibilidad de que la situacin sea analizada desde un punto de vista estratgico (no cooperativo). Esto
es particularmente claro en sistemas multiagente cooperativos donde no existen posibilidades de co-
municacin. Estos aspectos sern analizados ms detalladamente en la seccin 3.3, en el contexto de
juegos de coordinacin.
3.1. Componentes de un juego
Se puede denir un juego especicando cuatro componentes [4]:
1. Los jugadores: Quienes estn involucrados en el juego?
2. Las reglas:
Quin mueve y cuando?
Qu cosas puede hacer el agente (cuales son sus movimientos)?
Qu conocen cuando mueven?
3. Los resultados (outcomes): Para cada conjunto posible de acciones de los agentes, cual es el
resultado del juego?
4. Los pagos: Cuales son las preferencias de los agentes (funciones de utilidad) sobre los posibles
resultados del juego?
Ejemplo 3.1 (Matching Pennies) Jugadores: Hay dos jugadores, denotados 1 y 2. Reglas: Cada juga-
dor simultneamente muestra una moneda con la cara hacia arriba (C) o al reverso (R). Resultados (y
pagos): Si las dos monedas coinciden (ambas C o ambas R) el jugador 1 paga un dlar al jugador 2; en
caso contrario el jugador 2 paga un dlar al jugador 1.
Si bien las cuatro componentes de informacin presentadas previamente describen completamente
un juego, a menudo es til, a los nes de un anlisis adecuado, representar esta informacin de distintas
maneras. Las 3 formas principales de representar un juego son: la forma extensiva, la forma normal
(o estratgica) y la forma caracterstica. Las dos primeras son generalmente utilizadas en TJNC y se
presentan a continuacin.
1
En teora de juegos este tipo de situacin es referenciada como juegos de equipo
3.2. Representacin de un Juego en Forma Extensiva
Un juego en forma Extensiva es especicado mediante una estructura denominada rbol del juego.
Este rbol (al que denominaremos ) consiste de una coleccin nita de nodos ^, conectados mediante
arcos rotulados con las acciones de los jugadores. Denotaremos con /al conjunto de acciones posibles
del conjunto de jugadores 1, . . . , n que participan del juego. El conjunto de nodos terminales (T )
indica los posibles resultados del juego, y es rotulado con los valores devueltos por una funcin de
pago (). Esta funcin, asigna una n-tupla (
1
(),
2
(), . . . ,
n
()) con las utilidades que cada jugador
recibe cuando un nodo terminal particular ha sido alcanzado. Los nodos del conjunto de nodos no
terminales (^ T ) se denominan nodos de decisin, y representan cada situacin en que un jugador
debe elegir una accin (movimiento) entre un conjunto de acciones disponibles en ese nodo.
Uno de los nodos de decisin, es un nodo distinguido 1 (la raz) llamado punto de comienzo de .
Los nodos de decisin estn particionados en n+1 conjuntos H
0
, H
1
, . . . , H
n
denominados player sets.
Un conjunto H
i
representa los nodos del rbol donde es el turno para mover del jugador i. El jugador 0,
se denomina Nature y representa los movimientos de chance. Los arcos del rbol conectan dos nodos de
decisin distintos y representan un movimiento particular de un jugador. Son rotulados con el nombre
del movimiento tomado en el nodo de decisin predecesor, a excepcin de los movimientos de Nature
que se rotulan con la probabilidad de que ese movimiento me conduzca a un nodo de decisin sucesor
particular.
El conjunto H
i
de cada jugador es particionado en subconjuntos H
j
i
llamados conjuntos de infor-
macin. Dos nodos distintos dentro del mismo conjunto de decisin siempre tendrn el mismo nmero
de sucesores inmediatos, y nunca un nodo de decisin ser sucesor de otro nodo de decisin dentro del
mismo conjunto de informacin. Un agente siempre sabe en que conjunto de informacin est, pero no
puede distinguir los nodos particulares dentro del conjunto de informacin. Dado que cada nodo resulta
de un movimiento distinto realizado por el otro agente, un conjunto de informacin con mltiples no-
dos representa la incertidumbre del agente sobre la accin tomada por otro agente. De esta manera, un
conjunto de informacin puede ser usado para representar movimientos simultneos.
Ejemplo 3.2 Forma extensiva del juego Matching Pennies
Agente 1
1
+1
1
+1 1
+1
1
+1
Agente 2
Conjunto de Informacion
R
2
C
2
R
2
C
2
C
1 1
R
Pago de A. 2
Pago de A. 1
Figura 1: Forma extensiva de Matching Pennies
El rbol de la gura 1 reeja el hecho de que cuando cada jugador elige su movimiento, no puede
observar el movimiento realizado por su oponente. Un rbol equivalente se obtendra si el juego se
realiza en forma secuencial pero el jugador 1 mantiene tapada la moneda hasta que el jugador 2 haya
mostrado su moneda. Observar que el conjunto de informacin de cada jugador reeja su ignorancia al
no poder observar algn movimiento previo de su rival. Si, por ejemplo, el juego se hubiera realizado en
forma secuencial y el jugador 2 hubiera podido observar la moneda del jugador 1, el jugador 2 tendra 2
conjuntos de informacin, cada uno con uno de sus nodos de decisin. Este ltimo caso es un ejemplo
de un juego de informacin perfecta que se dene a continuacin.
Denicin 3.1 (Informacin perfecta)
El jugador i se dice que tiene informacin perfecta en si cada uno de sus conjuntos de informacin,
H
j
i
, contiene un nico elemento. Si cada jugador tiene informacin perfecta en entonces el juego se
dice que tiene informacin perfecta. Un juego donde existe al menos un conjunto de informacin que
tiene ms de un nodo de decisin se dice que es un juego de informacin imperfecta.
De acuerdo a la denicin, vemos que la versin estndard de matching pennies, al igual que otros
juegos con movimientos simultneos, constituyen juegos de informacin imperfecta. Para visualizar el
rol del jugador Nature (chance) en la representacin en forma extensiva, consideremos una variante
de matching pennies donde antes de jugar la versin secuencial de este juego, los jugadores tiran una
moneda para ver quien mover primero. Asumiendo que la moneda tiene la misma probabilidad de caer
de cualquiera de los dos lados, la forma extensiva para este juego sera la mostrada en la gura 2
2
:
1
+1
1
+1
Agente 2
1
+1 1
+1
1
+1
R2 C2 R2 C2
C1 1 R
Nature
Agente 1
1
+1 1
+1
1
+1
R1 C1 R1 C1
C2 2 R
Agente 2 Agente 1
Agente 2 Agente 1
1/2 1/2
Figura 2: Matching Pennies con movimientos de chance
3.3. Representacin de un Juego en Forma Normal
Un concepto fundamental en la Forma Normal de un Juego, es el concepto de estrategia.
Denicin 3.2 (Estrategia)
Una estrategia para un jugador i es una funcin s
i
que asigna a cada conjunto de informacin de i, H
j
i
,
una de las acciones (o movimientos) posibles en H
j
i
. Al conjunto de todas las estrategias del jugador i
lo denotaremos o
i
.
2
Los conjuntos de informacin con un nico nodo de decisin se representan por el mismo nodo sin circundarlo con una
lnea punteada.
Intuitivamente, una estrategia es un plan contingente completo [4] que especica como actuar el ju-
gador en cada circunstancia posible (conjuntos de informacin) cuando es su turno mover. Cuando un
jugador especica su estrategia, es como si el jugador escribiera un libro de instrucciones con su plan,
antes del juego, de manera tal que una tercera parte podra actuar en su representacin simplemente
consultando el libro. Este plan puede especicar acciones para el jugador en conjuntos de informacin
que pueden no ser alcanzados nunca durante la realizacin del juego.
Si consideramos que cada jugador i elige simultneamente una estrategia s
i
o
i
a menudo ser
conveniente representar las estrategias de los n-jugadores por un vector s o
n
i=1
o
i
, denominado
perl de estrategias (en ingls strategy prole). Un perl de estrategias s = (s
1
, s
2
, . . . , s
n
), con las
estrategias s
i
elegidas por cada jugador i, induce un resultado del juego: una secuencia de movimientos
particulares y una distribucin de probabilidad sobre los nodos terminales del juego. As, para cualquier
perl de estrategias s y considerando la distribucin de probabilidad determinada por chance (Nature),
uno puede considerar la expectativa matemtica de la funcin de pago y obtener un n-vector de pagos
(s) = (
1
(s),
2
(s), . . . ,
n
(s)) con la utilidad esperada por cada jugador si se juega s.
Es posible tabular la funcin (s) para cada perl de estrategias s que podamos construir tomando
los distintos s
i
para cada jugador. El resultado ser una matriz n-dimensional (una dimensin por cada
jugador) donde cada elemento ser el n-vector (s) para todas las posibles combinaciones de s. Esta
manera de representar un juego es una versin compacta de la forma extensiva, y se denomina forma
normal (o estratgica) del juego . De esta forma, la representacin en forma normal de un juego, que
denotaremos
N
, queda denida por los n jugadores, el conjunto de sus estrategias o
i
y el conjunto
de sus funciones de pagos (o utilidades)
i
(). Escribiremos en este caso al juego en forma normal
como la tupla
N
= n, o
i
,
i
())
Para el caso en que n = 2, la forma normal reduce a una matriz donde las las y las columnas son
rotuladas con cada una de las estrategias s
1
o
1
y s
2
o
2
de los jugadores 1 y 2 respectivamente. Cada
elemento de la matriz ser un par de nmeros reales (
1
(s
1
, s
2
),
2
(s
1
, s
2
)) con los pagos recibidos por
cada uno de los jugadores si se juega el perl de estrategias s = (s
1
, s
2
). Como ejemplo, en la gura 3
se muestra la forma normal del juego para la versin estndard de matching pennies.
C
2
R
2
C
1
-1,1 1,-1
R
1
1,-1 -1,1
Figura 3: Forma normal del juego matching pennies
Es importante notar que para cualquier representacin en forma extensiva de un juego se correspon-
de una nica representacin en forma normal. Sin embargo, la inversa no es verdadera. Pueden existir
muchas formas extensivas diferentes que pueden ser representadas por la misma forma normal. Esto
signica que la forma normal suele omitir algunos detalles presentes en la forma extensiva.
Es natural preguntarse si estas omisiones en la forma normal son importantes o esta forma sigue
resumiendo toda la informacin relevante estratgicamente. En otras palabras, la pregunta que surge
es: el escenario que plantean los juegos en forma normal, en el cual los jugadores simultneamente
anotan sus estrategias y se las proveen a un rbitro que determina el resultado del juego, es equivalente
a jugar el juego a lo largo del tiempo como se describe en la forma extensiva?. Este aspecto es sujeto
de controversia entre los tericos de Juegos, ya que existen ciertos aspectos que surgen en los juegos
dinmicos
3
que no son adecuadamente capturados por la forma normal.
3
Aquellos juegos en los que los jugadores eligen sus acciones a lo largo del tiempo.
En los juegos de movimientos simultneos, en los que todos los jugadores eligen sus acciones al
mismo tiempo, la forma normal del juego captura toda la informacin relevante estratgicamente. De
ahora en ms por lo tanto, cuando trabajemos con un juego en forma estratgica lo interpretaremos
como un juego de movimientos simultneos, es decir, un juego donde cada jugador mueve slo una
vez y todos los jugadores eligen sus acciones en forma simultnea. En estos casos, una estrategia de un
jugador es simplemente la eleccin de una accin particular. Por lo tanto de ahora en ms, en los juegos
en forma estratgica utilizaremos los trminos estrategia y accin en forma indistinta.
Es importante observar que un juego en forma normal de n jugadores, puede tambin ser represen-
tado por n matrices M
i
, donde cada M
i
es la matriz con la utilidades
i
correspondientes al agente i.
Para el caso de dos jugadores, estos juegos reciben el nombre de juegos bimatriciales ya que inducen
dos matrices de pagos, una por cada jugador.
Un caso particular, son aquellos juegos de dos jugadores en los que la suma de sus utilidades para
cada perl de estrategias es cero. Este tipo de juegos se denominan a suma cero, y se los puede describir
especicando nicamente la matriz de pagos M
i
de uno de los jugadores (ya que la otra es M
i
). Un
ejemplo de un juego a suma cero, es el juego de matching pennies que se muestra en la gura 3.
Los juegos a suma cero, suelen ser referenciados como juegos estrictamente competitivos. Otro tipo
particular de juegos, lo constituyen los juegos estrictamente colaborativos (o juegos de equipo) donde
todos los agentes tienen las mismas funciones de pagos. Todos los juegos que no son a suma cero
(incluyendo los juegos de equipos) los denominaremos juegos de suma general. Las guras 4, 5, 6 y 7
muestran algunos ejemplos de juegos. A excepcin del popular juego roca-papel-tijera que es a suma
cero, los restantes son juegos de suma general. En particular, el juego encuentro en New York es un
juego de equipo.
NC C
NC -2,-2 -10,-1
C -1,-10 -5,-5
Figura 4: El dilema del prisionero
E G
E 100,100 0,0
G 0,0 100,100
Figura 5: Encuentro en New York
R P T
R 0,0 -1,1 1,-1
P 1,-1 0,0 -1,1
T -1,1 1,-1 0,0
Figura 6: Roca-Papel-Tijera
L R
U 10,1 0,4
M 4,2 4,3
D 0,5 10,2
Figura 7: Ejemplo de juego
Hasta el momento, hemos asumido que los jugadores realizan la eleccin de sus estrategias con
certidumbre. A cada una de las estrategias s
i
o
i
, denidas de acuerdo a la denicin 3.2, se las
suele denominar las estrategias puras del jugador i. Como veremos luego, en algunas situaciones es
importante que un jugador pueda randomizar en el momento de realizar una eleccin. Una forma posible
de randomizacin es permitir que el jugador realice una seleccin estocstica entre sus estrategias puras.
Esta idea da origen al concepto de estrategia mixta que, como veremos ms adelante, juega un rol
importante en el anlisis de los juegos.
Denicin 3.3 (Estrategia Mixta)
Sea PD() el espacio de distribuciones de probabilidad sobre un conjunto, y o
i
el conjunto de estra-
tegias puras del jugador i. Una estrategia mixta para el jugador i es una distribucin de probabilidad
sobre sus estrategias puras, y la escribiremos
i

i
PD(o
i
). Para cada
i

i
se cumple que

s
i
S
i

i
(s
i
) = 1, donde
i
(s
i
) 0 es la probabilidad con que el agente i juega su estrategia pura s
i
,
de acuerdo a la estrategia mixta
i
.
Vemos en este caso, que una estrategia pura puede ser considerada como un caso especial de una
estrategia mixta cuya distribucin de probabilidad sobre los elementos de o
i
es degenerada (le asigna a
uno de esos elementos una probabilidad de 1). Los perles de estrategias mixtas sern denotados como
=
n
i=1

i
. La utilidad o pago para el jugador i de un perl de estrategias mixtas es el valor
esperado
i
()

i
(s)

n
j=1

j
(s
j
).
Al analizar un juego, ser til distinguir la estrategia de un jugador i de las estrategias del resto de los
jugadores. Si o
i
o
1
. . .o
i1
o
i+1
. . .o
n
, denotaremos con s
i
= (s
1
, . . . , s
i1
, s
i+1
, . . . , s
n
)
o
i
a un perl de estrategias (puras) de todos los jugadores excepto i. Un signicado similar utilizare-
mos cuando referenciemos al perl de estrategias mixtas
i
. De esta forma, podemos ahora escribir
s = (s
i
, s
i
) y = (
i
,
i
).
Una vez presentados los aspectos bsicos relativos a la representacin de un juego, discutiremos
ahora qu constituye una solucin del mismo, es decir, qu estrategias son adecuadas para que sigan
cada uno de los agentes. Comenzaremos para ello con la idea de dominacin entre estrategias.
Consideremos por ejemplo el famoso juego del Dilema del Prisionero (gura 4). Este juego se ba-
sa en la historia de dos prisioneros acusados de estar involucrados en un crimen muy serio. Ambos
prisioneros son alojados en celdas separadas y son interrogados para intentar extraerles una confesin.
El interrogador le dice en forma privada a cada uno de ellos que si es el nico que conesa (C) ser
recompensado con una sentencia leve de 1 ao. Pero que si l es el nico que no conesa (NC), deber
cumplir una sentencia de 10 aos. Si ambos conesan debern cumplir una condena intermedia de 5
aos. Finalmente si ninguno conesa, ser an posible encarcelarlos por un crimen menor cuya pena
es de 2 aos. Si observamos la matriz de pagos de este juego, e intentamos responder a la pregunta de
cual ser el resultado de este juego, vemos que la nica respuesta plausible es que ambos confesarn
(resultado (C,C)). Esto se debe a que la estrategia de confesar es la mejor estrategia de cada juga-
dor independientemente de lo que el otro jugador haga. Este tipo de estrategias son conocidas como
estrategias estrictamente dominantes.
Denicin 3.4 (Estrategia dominante)
Una estrategia s
i
o
i
es una estrategia estrictamente dominante para el jugador i en un juego
N
=
n, o
i
,
i
()) si para todo s

i
,= s
i
tenemos que

i
(s
i
, s
i
) >
i
(s

i
, s
i
)
para todo s
i
o
i
.
En otras palabras, una estrategia s
i
es estrictamente dominante para el jugador i si maximiza el
pago del jugador i para cualquier estrategia que los otros agentes puedan jugar. El aspecto llamativo del
juego del dilema del prisionero, es que si bien el resultado (C,C) es el que uno espera que surja, no es el
mejor resultado para los jugadores en forma conjunta, ya que ambos preferiran que ninguno de los dos
conese. Por esta razn el Dilema del prisionero es el ejemplo paradigmtico de un comportamiento
racional e individualista que no conduce a un resultado socialmente ptimo.
Si bien es lgico pensar que los jugadores deberan jugar estrategias estrictamente dominantes en
caso de que las tuvieran, el problema es que en muchos juegos tales estrategias no existen. Si pensamos
por ejemplo en la versin estndard de matching pennies, vemos que la mejor estrategia de un jugador
depender de la estrategia que juegue el otro. No obstante esto, el hecho de que no existan estrate-
gias estrictamente dominantes no signica que un jugador no pueda sacar de consideracin para jugar
aquellas estrategias que son estrictamente dominadas.
Denicin 3.5 (Estrategia dominada)
Una estrategia s
i
o
i
es una estrategia estrictamente dominada para el jugador i en un juego
N
=
n, o
i
,
i
()) si existe otra estrategia s

i
o
i
tal que para todo s
i
o
i
, se cumple que

i
(s

i
, s
i
) >
i
(s
i
, s
i
).
En este caso, diremos que la estrategia s

i
domina estrictamente a la estrategia s
i
.
Como vemos el concepto de estrategia dominante puede ser replanteada ahora, como aquella estra-
tegia que domina estrictamente al resto de las estrategias de un jugador.
En algunos casos, se suele utilizar una nocin ms dbil de estrategia dominada, que referenciare-
mos como dominacin dbil. En este caso, una estrategia es dbilmente dominada si existe otra estrate-
gia que es al menos tan buena para todo s
i
y estrictamente mejor para algn s
i
. Adems, en la medida
que los jugadores pueden randomizar sobre sus estrategias puras, las deniciones previas de estrategias
dominantes y dominadas pueden ser generalizadas para contemplar la posibilidad de estrategias mixtas.
Denicin 3.6 (Estrategia dominada)
Una estrategia (mixta)
i

i
es una estrategia estrictamente dominada para el jugador i si existe otra
estrategia

i

i
tal que para todo
i

i
, se cumple que

i
(

i
,
i
) >
i
(
i
,
i
).
En este caso, diremos que la estrategia

i
domina estrictamente a la estrategia
i
. Una estrategia
i
es una estrategia estrictamente dominante para el jugador i si domina estrictamente a cada una de las
estrategias en
i
.
Para ejemplicar los conceptos previos observar que las estrategias C y NC en el Dilema del pri-
sionero son estrategias (puras) dominante y dominada respectivamente. En el juego de la gura 8 por
su parte, no existe una estrategia estrictamente dominante para el jugador 1, pero su estrategia D es es-
trictamente dominada por la estrategia M (y tambin por la U). La gura 9 muestra un juego donde dos
estrategias, U y M, son dominadas dbilmente por la estrategia D. Si bien hasta ahora ejemplicamos en
base a considerar nicamente estrategias puras, es importante observar que una estrategia pura s
i
puede
que no sea estrictamente dominada por ninguna estrategia pura, pero sea dominada por una estrategia
mixta
i
. Esto se puede observar en el ejemplo del juego de la gura 7. En este caso, la estrategia M del
jugador 1, no es dominada ni por U ni por D, pero es estrictamente dominada por una estrategia mixta
que asigne un 50 % de chances de ser elegida tanto a U como a D.
L R
U 1,-1 -1,1
M -1,1 1,-1
D -2,5 -3,2
Figura 8: Ejemplo 2 de juego
L R
U 5,1 4,0
M 6,0 3,1
D 6,4 4,4
Figura 9: Ejemplo 3 de juego
Hasta ahora hemos analizado las predicciones de los resultados de un juego tomando como base
ciertos criterios de racionalidad. Estos criterios establecen que los jugadores, en la medida que son
maximizadores de utilidad, eligirn una estrategia estrictamente dominante, si la tuvieran, y de no ser
posible, al menos sacarn de consideracin estrategias estrictamente dominadas. Lamentablemente,
no es usual que la eliminacin de estrategias estrictamente dominadas conduzca a una prediccin nica
para un juego. Sin embargo, existen juegos que son resolubles por dominacin iterada (en ingls iterated
dominance solvable).
La idea de dominacin iterada consiste en que un jugador racional puede eliminar de su conside-
racin no slo sus estrategias estrictamente dominadas, sino tambin aquellas que son estrictamente
dominadas si el otro jugador es racional. Esto signica que un agente tal vez no pueda eliminar una
estrategia propia estrictamente dominada si slo se limita a analizar su matriz de pagos. Sin embargo,
si conoce la matriz de pagos del otro agente, y conoce que ste es racional, puede asumir que el otro
agente nunca jugar una de sus estrategias estrictamente dominadas. De esta manera, sacando de consi-
deracin las estrategias estrictamente dominadas del otro agente, genera un juego reducido
4
en el cual
ahora puede ser posible eliminar una estrategia propia.
El proceso anterior puede ser iterado varias veces
5
hasta que las estrategias restantes en algunos
casos determinan un resultado nico del juego. Observar que cada iteracin adicional de este proceso
requiere un conocimiento del agente sobre la racionalidad del otro agente a un nivel ms de profundidad.
Esto es, un agente debe conocer no slo que sus rivales son racionales sino tambin que ellos conocen
que l es racional y as sucesivamente. Uno de los problemas con el concepto de dominacin es que en
muchos juegos de inters, el proceso de dominacin iterada no conduce a predicciones fuertes.
Una de las diferencias principales entre los problemas de decisin de un nico agente que vimos
previamente, y los problemas presentados en el contexto de teora de juegos, es que en ste ltimo
caso la idea de estrategia o poltica ptima no es independiente de las estrategias adoptadas por los
otros agentes. Ejemplos tan sencillos como el juego de matching pennies son representativos de este
fenmeno. Si la estrategia del jugador 2 es jugar C, la estrategia ptima del jugador 1 es jugar R.
Si en cambio, la estrategia del jugador 2 es jugar R, la estrategia ptima del jugador 1 es jugar
C. Vemos por lo tanto que no existe una estrategia (pura o mixta) ptima que sea independiente
del oponente. Lo que en realidad existe, es una solucin (o conjunto de soluciones) dependientes del
oponente. Este concepto es denominado una mejor respuesta (en ingls best response).
Denicin 3.7 (Mejor respuesta)
Para un juego, la funcin de mejor respuesta para el jugador i, BR
i
(
i
), es el conjunto de todas las
estrategias que son ptimas dado que los otros jugadores juegan
i
.
De acuerdo a esta denicin, vemos que una estrategia
i
es una mejor respuesta a un perl
i
, es
decir
i
BR
i
(
i
), si
i
(
i
,
i
)
i
(

i
,
i
) para todo

i

i
. A partir de la idea de mejor res-
puesta, surge el concepto de solucin ms importante en la teora de juegos no cooperativa, el equilibrio
de Nash o equilibrio de mejor respuesta.
Denicin 3.8 (Equilibrio de Nash)
Un perl de estrategias

= (

1
, . . . ,

n
) es un Equilibrio de Nash si

i
BR
i
(

i
) para todo
jugador i.
Si consideramos la utilidad que se logra con una estrategia de mejor respuesta, es posible redenir el
concepto de equilibrio de Nash, en base a las utilidades que logra cada jugador del equilibrio.
4
Eliminando las columnas que corresponden a las estrategias estrictamente dominadas del otro agente.
5
Asumiendo que el otro agente realiza un proceso simtrico.
Denicin 3.9 (Equilibrio de Nash)
Un perl de estrategias

= (

1
, . . . ,

n
) es un Equilibrio de Nash si para cada jugador i = 1, . . . , n,

i
(

i
,

i
)
i
(

i
,

i
)
para todo

i

i
.
Podemos observar, que cuando los jugadores juegan un equilibrio, ningn jugador puede beneciar-
se desvindose unilateralmente mediante el cambio de su estrategia, dado que los otros jugadores siguen
el equilibrio. Si bien las deniciones anteriores de mejor respuesta y equilibrio de Nash se han denido
en base a estrategias mixtas, las mismas son totalmente vlidas para el caso particular de estrategias
puras, con las substituciones de notacin correspondientes.
Para visualizar el concepto de equilibrio de Nash, consideremos el juego de la gura 10. En este
caso, vemos que el perl de estrategias (M, m) es un equilibrio de Nash. Si el jugador 1 elige M,
entonces la mejor respuesta del jugador 2 es elegir m. La inversa tambin es verdadera cuando el
jugador 2 elige m. Este perl es adems la nica combinacin de estrategias (puras) que es un equilibrio
de Nash. Si tomamos por ejemplo el perl de estrategia (U, r), el mismo no puede ser un equilibrio de
Nash ya que el jugador 1 preferira desviarse a la estrategia D, dado que 2 est jugando r
6
.
l m r
U 5,3 0,4 3,5
M 4,0 5,5 4,0
D 3,5 0,4 5,3
Figura 10: Un equilibrio de Nash
En el caso del dilema del prisionero vemos que confesar (C) no slo es la estrategia dominante de
cada prisionero. El perl (C, C) en el que ambos conesan es el nico equilibrio de Nash.
Un caso interesante plantea el juego del encuentro en New York (gura 5). En este caso, dos perso-
nas que se encuentran separadas y sin posibilidad de comunicarse han acordado encontrarse al medioda
en el Empire State Building (E) o en el reloj de Grand Central Station (G). Sin embargo han olvida-
do especicar en cual de los dos lugares. Cada persona debe decidir donde ir, y se asume que ambas
asignan un valor monetario de 100 dlares a la compana del otro (y 0 dlar si no lo encuentra). ste
es un ejemplo de los denominados juegos de coordinacin, donde se puede apreciar que es posible que
un juego tenga mltiples equilibrios de Nash. Si ignoramos la posibilidad de randomizacin, observa-
mos que hay dos equilibrios de Nash sobre estrategias puras: (E,E) y (G,G). Tambin hay un equilibrio
de Nash en estrategias mixtas si ambos jugadores randomizan asignndole un 50 % de chances de ser
elegida a cada una de sus estrategias puras (perl de estrategias = ((
1
2
,
1
2
), (
1
2
,
1
2
))).
Qu se puede esperar que ocurra en este juego?. Ambos jugadores preeren cualquiera de los dos
equilibrios de Nash en estrategias puras al equilibrio de Nash en estrategias mixtas
7
. Sin embargo, ante
la ausencia de algn dispositivo de coordinacin, no es obvio determinar de que manera los jugadores
eligirn el mismo equilibrio puro. Este ltimo ejemplo muestra uno de los problemas en la utilizacin
6
Esto se debe a que r es la mejor respuesta del jugador 2 a la estrategia U, pero U no es la mejor respuesta del jugador 1
a la estrategia r.
7
La utilidad esperada en uno de los equilibrios puros es 100 mientras que la utilidad esperada en el equilibrio mixto es
50.
de equilibrios de Nash: la existencia de mltiples equilibrios. En este sentido, la teora de equilibrios de
Nash no emite opinin sobre cual equilibrio esperaramos ver cuando existe ms de uno.
La existencia de mltiples equilibrios no es el nico problema de las soluciones basadas en equili-
brios. Tambin existen juegos donde no existe ningn equilibrio sobre estrategias puras. Si observamos
por ejemplo el juego de matching pennies o roca, papel y tijera vemos que en ninguno de los dos casos
existe un equilibrio sobre estrategias puras. Sin embargo, ambos juegos tienen un equilibrio de Nash
representado por aquellas estrategias mixtas donde cada jugador asigna igual chance de ser elegida a
cualquiera de sus estrategias puras. Este resultado no se limita a los juegos de suma cero que hemos
dado como ejemplos. En realidad, se puede demostrar, que cualquier juego en forma normal donde
el conjunto de estrategias puras de cada jugador es nito, siempre tiene un equilibrio de Nash sobre
estrategias mixtas.
A menudo es til analizar el concepto de equilibrio de Nash y el problema de la seleccin de
equilibrios considerando otros criterios que tomen en cuenta una perspectiva global del resultado de un
juego como por ejemplo los de bienestar social (suma de las utilidades de los agentes) y optimalidad
Pareto. Consideremos en primer lugar algunas deniciones que presentan la nocin de optimalidad
Pareto en el contexto de perles de estrategias.
Denicin 3.10 (Mejora Pareto)
Un perl de estrategias (puras o mixtas) = (
1
, . . . ,
n
) es una mejora Pareto sobre una estrategia

= (

1
, . . . ,

n
) si
(
1
(), . . . ,
n
()) > (
1
(

), . . . ,
n
(

)).
8
Tambin es comn en estos casos decir que es un dominador-Pareto
9
respecto a

.
En base a la denicin anterior, podemos denir informalmente a un perl de estrategias como
Pareto ptimo o Pareto eciente si no existe otro perl de estrategias que lo domina. En este caso, si un
perl de estrategias es Pareto ptimo, no existir otro perl que incrementa la utilidad de un agente sin
decrementar la utilidad de otro.
Denicin 3.11 (Optimalidad Pareto)
Un perl de estrategias es Pareto ptimo si no existe otro perl de estrategias

tal que

i
(
i
(

)
i
()) y j(
j
(

) >
j
()).
Los conceptos de optimalidad Pareto y bienestar social estn relacionados. En efecto, aquellas so-
luciones que maximizan el bienestar social son un subconjunto de las soluciones Pareto ptimas. En la
medida que la suma de las utilidades es maximizada, la utilidad de un agente slo puede ser incremen-
tada si la de otro agente es reducida. Si consideramos nuevamente el juego del dilema del prisionero
(gura 4) es interesante observar que el equilibrio de Nash (nico), en el cual ambos prisioneros con-
esan (perl de estrategias (C, C)) es paradjicamente el nico perl de estrategias que no es Pareto
ptimo. Por otra parte, el nico perl de estrategias que es Pareto ptimo y maximiza el bienestar social
es aquel en el cual ninguno de los prisioneros conesa (perl de estrategias (NC, NC)).
Si bien los conceptos de optimalidad Pareto y equilibrio de Nash pueden entrar en conicto, existen
casos donde el criterio de optimalidad Pareto puede asistir en la seleccin de un equilibrio de Nash
en caso de existir ms de uno. Para entender este concepto, consideremos nuevamente el juego de
8
Utilizamos en este caso el smbolo > para denotar el ordenamiento entre pares de vectores x, y R
n
tal que x > y si
y solo si
i
(x
i
y
i
) y j(x
j
> y
j
).
9
No confundir el signicado de la palabra domina en este contexto con la nocin de dominacin de estrategias intro-
ducida previamente.
coordinacin simple del encuentro en New York (gura 5). El problema en este caso, es que ambos
equilibrios en estrategias puras son equivalentes pero no son intercambiables
10
. No existe adems en
la estructura del juego ninguna particularidad o razn por la que se podra justicar la seleccin de un
equilibrio en lugar del otro. Como observado en [1] el problema de seleccionar un equilibrio en estos
casos, puede ser considerado tan arbitrario como decidir cual de las races de una ecuacin cuadrtica
elegir. Para ubicar un punto focal ser necesario buscar pistas no en el juego en s mismo, sino en la
situacin del mundo real desde la cual el juego ha sido abstrado.
Notar sin embargo que si modicamos el juego para que el equilibrio (G, G) tenga una utilidad de
(1000, 1000) para ambos jugadores, la decisin de ir a Grand Central Station luce como la alternativa
obvia y (G, G) tiene las caractersticas de un resultado focal. Cuando un equilibrio de Nash es un
dominador Pareto con respecto a los otros equilibrios a menudo se ha argumentado que este hecho
por s solo garantiza al equilibrio dominador el estado de punto focal. En algunos casos incluso, se ha
sostenido que la seleccin de cualquier otro equilibrio sera en cierta manera irracional.
El argumento previo sin embargo, no pareciera dar una respuesta categrica a todas las situaciones.
Para ello, consideremos el juego de la gura 11 propuesto en [1] para analizar la idea de equilibrio
dominador Pareto.
t
1
t
2
s
1
10, 10 0, x
s
2
x, 0 x, x
Figura 11: Ejemplo 4 de juego
Si 0 x 10 el juego tiene dos equilibrios de Nash (s
1
, t
1
) y (s
2
, t
2
). Si x < 10, (s
1
, t
1
) es una
mejora Pareto sobre (s
2
, t
2
). La pregunta que surge es si (s
1
, t
1
) debera ser siempre seleccionado. Si
x = 1 probablemente nadie negara a este equilibrio el status de punto focal. Qu ocurrira si x = 9
o x = 9,9 o x = 9,99?. Observar que en este caso (s
1
, t
1
) es ms riesgoso que (s
2
, t
2
) ya que un
jugador que se inclina por este ltimo se asegura al menos x, mientras que en el primer caso si existiera
una falla de coordinacin un jugador puede que no consiga nada.
Harsanyi y Selten consideraron este tipo de situaciones diferenciando entre las nociones de do-
minacin Pareto y dominacin de riesgo (risk-dominance)
11
. Esta ltima intenta reejar el hecho
de que algunos equilibrios son ms riesgosos que otros. Propusieron adems una forma de cuanticar
el riesgo involucrado que, para este ejemplo, determinara que (s
2
, t
2
) risk-dominate a (s
1
, t
1
) cuando
x > 5. La existencia de equilibrios riesgosos es un factor importante cuando los jugadores deben apren-
der a jugar un juego a partir de repeticiones sucesivas del mismo [2]. En estos casos, las penalizaciones
que van recibiendo los aprendices hacen dicultosa la convergencia a equilibrios muy riesgosos, an si
el equilibrio es dominador Pareto respecto al resto de los equilibrios.
Referencias
[1] K. Binmore. Fun and Games. A Text on Game Theory. D. C. Heath and Company, 1992.
10
Este problema no aparece en juegos de suma cero donde los equilibrios son equivalentes e intercambiables.
11
El uso de la palabra riesgo en este contexto es diferente del concepto de aversin al riesgo, el cual se supone que ya
est incorporado en la funcin de utilidad.
[2] C. Claus and C. Boutilier. The dynamics of reinforcement learning in cooperative multiagent sys-
tems. In Proc. AAAI-98, Menlo Park, CA, 1998.
[3] N. R. Jennings, K. Sycara, and M. Wooldridge. A roadmap of agent research and development .
Autonomous Agents and Multi-agent Systems, 1(1):738, 1998.
[4] A. Mas-Collel, M. D. Whinston, and J. R. Green. Microeconomic Theory. Oxford University Press,
1995.
[5] S. Russell and P.orvig. Articial Intelligence: A Modern Approach. Prentice-Hall, second edition,
2003.