Está en la página 1de 31

5.1 Juegos:

Capítulo 2 introduce entornos multiagente, en el que cada agente debe tener en cuenta las acciones de otros agentes y cómo afectan a su propio bienestar. La imprevisibilidad de estos otros agentes puede introducir contingencias en el proceso de resolución de problemas del agente, como se discutió en el Capítulo 4. Eneste capítulo wecover entornos competitivos, en los que los objetivos de los agentes están en conflicto, dando lugar a contenciosos problemas­frecuencia de búsqueda conocidos como juegos la teoría de juegos .Mathematical, una rama de la economía, ve a cualquier entorno multiagente como un juego, siempre que el impacto de cada agente en los demás es "significativo", independientemente de si los agentes son cooperativas o competitivas.1 en AI, los más comunes juegos son de una clase­lo bastante especializada juego teóricos llaman determinista, teniendo a su vez, de dos jugadores, juegos de suma cero de la información perfecta (como el ajedrez). En nuestra terminología, esto significa entornos deterministas, totalmente observables en el que dos agentes actúan de forma alternativa y en el que los valores de utilidad en el final del juego son siempre iguales y opuestas. Por ejemplo, si un jugador gana una partida de ajedrez, el otro jugador pierde necesariamente. Es esta oposición entre las funciones de utilidad de los agentes que hace que la situación de confrontación. Los juegos han participado las facultades intelectuales de los seres humanos, a veces a un alarmante grado­por el tiempo que ha existido la civilización. Para los investigadores de IA, la naturaleza abstracta de juegos de ellas un tema atractivo para el estudio hace. El estado de un juego es fácil de representar, y los agentes suelen limitarse a un pequeño número de acciones cuyos resultados se definen por normas precisas. juegos físicos, tales como croquet y el hockey sobre hielo, tienen mucho más complicadas descripciones, una gama mucho más amplia de posibles acciones y reglas imprecisas en lugar de fi nir la legalidad de las acciones. Con la excepción de fútbol de robots, estos juegos físicos no han atraído mucho interés en la comunidad de IA.

Juegos, a diferencia de la mayoría de los problemas de juguetes estudiados en el capítulo 3, son interesantes porque son demasiado difíciles de resolver. Por ejemplo, el ajedrez tiene un promedio factor de ramificación de aproximadamente 35 años, y juegos a menudo ir a 50 movimientos por cada jugador, por lo que el árbol de búsqueda tiene alrededor de 35100 o 10154 nodos (aunque el grafo de búsqueda tiene "sólo" unos 1.040 nodos distintos). Los juegos, como el mundo real, por lo tanto, requieren la capacidad de tomar alguna decisión, incluso cuando se calcula el isinfeasible decisión óptima. Los juegos también penalizan severamente ineficiencia. Mientras que animplementation de búsqueda A * que es la mitad de e fi ciente simplemente tomará twiceas largo Torun hasta su finalización, el programa achess que es la mitad de e fi ciente en el uso de su tiempo disponible, probablemente serán golpeados en el suelo, en igualdad de condiciones. Por lo tanto, la investigación Juego de papeles ha generado una serie de ideas interesantes sobre cómo hacer el mejor uso posible de tiempo. Empezamos con una definición del movimiento óptimo y un algoritmo para el hallazgo él. a continuación, nos fijamos en las técnicas para la elección de un buen movimiento cuando el tiempo es limitado. La poda nos permite ignorar las partes del árbol de búsqueda que hacen ninguna diferencia en la elección final, y las funciones de evaluación heurística nos permite aproximar la verdadera utilidad de un estado sin hacer una búsqueda completa. Sección 5.5 discute juegos como el backgammon que incluyen un

elemento de azar; también discutimos puente, que incluye elementos de información imperfecta porque no todas las tarjetas son visibles para cada jugador. Por último, nos fijamos en cómo los programas de juego de roles del estado de la técnica les va en contra de la oposición humana y en las direcciones para futuros desarrollos. Nosotros consideramos Fi primera juegos con dos jugadores, a los que llamamos MAX y MIN, por razones que pronto serán obvias. MAX mueve primero, y luego se turnan para mover hasta que el juego ha terminado. Al final del juego, los puntos se conceden al jugador ganador y sanciones se dan para el perdedor. Un juego puede ser formalmente definido como un tipo de problema de búsqueda con los siguientes elementos:

• S0: Theinitial estado, que especi fi ca cómo el juego se desarrolla en la salida.

• REPRODUCTOR (s): De las multas que el jugador tiene el movimiento en un estado.

• ACCIONES (s): Devuelve el conjunto de movimientos legales en un estado.

• resultado (s, a): El modelo de transición, que define el resultado de un movimiento.

• TERMINAL DE PRUEBA (s): Una prueba de terminales, lo cual es cierto cuando el juego

ha terminado y falso en caso contrario. Estados en los que el juego ha terminado se llaman

estados terminales.

• UTILIDAD (s, p): Una función de utilidad (también llamada una función objetivo o pagar

función), define el final valor numérico para un juego que termina en el estado terminal de s

para un jugador p. En el ajedrez, el resultado es una ganancia, pérdida, o dibujar, con valores +1, 0, OR1 2. Algunos juegos tienen una variedad más amplia de posibles resultados; los beneficios en términos de backgammon gama de 0 a 192. Un juego de suma cero es (confusamente) de fi ne como uno donde la rentabilidad total a la que todos los jugadores es el mismo para cada instancia del juego. El ajedrez es de suma cero, porque cada juego tiene recompensa de cualquiera 0 + 1, 1 + 0o 1 2 + 1 2. "Constante de suma" habría sido un término mejor, pero de suma cero es tradicional y tiene sentido si uno se imagina cada uno el jugador se cobra una cuota de inscripción de 1 2. el estado inicial, la función ACCIONES, y la función RESULTADO definen el árbol de juego para el juego árbol de juego de un árbol donde los nodos son estados de juego y los bordes son movimientos. La figura 5.1 muestra parte del árbol de juego de tic­tac­toe (tres en raya). Desde el estado inicial, MAX tiene nueve movimientos posibles. El juego se alterna entre MAX de colocar una X y MIN de la colocación de una junta hasta llegar a los nodos de hoja que corresponde a los estados terminales de tal manera que un jugador tiene tres en una fila o todas las plazas se llenan. El número en cada nodo hoja indica el valor de utilidad del estado terminal desde el punto de vista de MAX; Los valores altos se supone que son buenos para MAX y MIN malo para (que es como los jugadores consiguen sus nombres).

Para tic­tac­dedo del pie del árbol del juego es relativamente pequeña de menos de 9! = 362,880 nodos terminales. Pero para el ajedrez hay más de 1040 nodos, por lo que el árbol de juego es mejor como una construcción teórica que no se puede realizar en el mundo

físico. Pero, independientemente del tamaño del árbol de juego, es el trabajo de MAX para buscar un buen movimiento. Usamos el término árbol de búsqueda para un árbol que se superponen en el árbol de juego completo, y examina suficientes nodos que permiten a un jugador para determinar qué movimiento hacer.

permiten a un jugador para determinar qué movimiento hacer. 5.2 Las decisiones óptimas en los juegos
permiten a un jugador para determinar qué movimiento hacer. 5.2 Las decisiones óptimas en los juegos

5.2 Las decisiones óptimas en los juegos

En un problema de búsqueda normal, la solución óptima sería una secuencia de acciones que conducen a un estado terminal de un estado objetivo que es una victoria. En busca de adversarios, MIN tiene algo que decir al respecto. por lo tanto MAX debe encontrar una estrategia contingente, que especifica el movimiento de MAX en el estado inicial, entonces se mueve de Max en los estados resultantes de cada respuesta posible por MIN, a continuación, de Max se mueve en los estados resultantes de cada respuesta posible por

MIN a esos movimientos, y por lo en. Esto es exactamente análogo a la Y­O algoritmo de búsqueda (Figura 4.11) con MAX jugar el papel de O y MIN equivalente a Y. En términos generales, una estrategia óptima conduce a resultados al menos tan buena como cualquier otra estrategia cuando uno está jugando a un oponente infalible. Comenzamos mostrando cómo encontrar esta estrategia óptima

Comenzamos mostrando cómo encontrar esta estrategia óptima ble adversario. Comenzamos mostrando cómo encontrar esta
Comenzamos mostrando cómo encontrar esta estrategia óptima ble adversario. Comenzamos mostrando cómo encontrar esta

ble adversario. Comenzamos mostrando cómo encontrar esta estrategia óptima. Incluso un juego simple, como el tic­tac­dedo del pie es demasiado complejo para que saquemos todo el árbol de juego en una página, por lo que vamos a cambiar al juego trivial en la Figura 5.2. Los movimientos posibles para MAX en el nodo raíz se denominan A1, A2 y A3. Las posibles respuestas a A1 en el MIN son b1, b2, b3, y así sucesivamente. Este juego en particular termina después de un movimiento en cada uno de MAX y MIN. (En el lenguaje del juego, se dice que este árbol es un movimiento profundo, que consiste en dos medias jugadas, cada uno de los cuales capa se denomina una capa.) Las utilidades de los estados terminales de esta gama de juegos de 2 a 14.

Dado un árbol de juego, la estrategia óptima puede determinarse a partir del valor minimax de cada nodo, que se escribe como MINIMAX (n). El valor minimax de un nodo es la utilidad (por MAX) de estar en el estado correspondiente, suponiendo que ambos jugadores juegan de manera óptima a partir de ahí hasta el final del juego. Obviamente, el valor minimax de un estado terminal es simplemente su utilidad. Además, da la opción, MAX prefiere pasar a un estado de valor máximo, mientras que MIN prefiere un estado de valor mínimo. Así tenemos los siguientes:

pasar a un estado de valor máximo, mientras que MIN prefiere un estado de valor mínimo.

Vamos a aplicar estas definiciones para el árbol de juego en la Figura 5.2. Los nodos terminales en el nivel inferior obtienen sus valores de utilidad de la función de utilidad del juego. El primer nodo MIN, la etiqueta B, tiene tres estados sucesores con los valores de 3, 12 y 8, por lo que su valor minimax es 3. Del mismo modo, los otros dos nodos MIN tienen un valor minimax 2. El nodo raíz es un nodo MAX; sus estados sucesores tienen valores minimax 3, 2 y 2; por lo que tiene un valor minimax de 3. También podemos identificar la decisión minimax en la raíz: la acción a1 es la elección óptima para MAX debido a que conduce al estado con el mayor valor minimax.

Esta definición de juego óptimo para MAX MIN asume que también juega óptimamente­maximiza el resultado del peor caso para MAX. ¿Qué pasa si MIN no juega de manera óptima? Entonces es fácil demostrar (ejercicio 5.7) que Max va a hacer aún mejor. Otras estrategias contra oponentes subóptimos pueden hacer mejor que la estrategia minimax, pero estas estrategias necesariamente hacer peor contra oponentes óptimas.

5.2.1 El algoritmo minimax

El algoritmo minimax (Figura 5.3) calcula la decisión minimax del estado actual. Utiliza un simple cálculo recursivo de los valores minimax de cada estado sucesor, la ejecución directa de las ecuaciones que definen. La recursividad prosigue hasta el fondo de las hojas del árbol, y luego los valores minimax son movidas hacia arriba a través del árbol como la recursividad se desenrolla. Por ejemplo, en la figura 5.2, el algoritmo recursivamente primero a los tres nodos bottomleft y utiliza la función de utilidad en ellos para descubrir que sus valores son 3, 12, y 8, respectivamente. Luego toma el mínimo de estos valores, 3, y lo devuelve como el valor respaldado del nodo B. Un proceso similar se indican los valores de copia de seguridad de 2 para C y 2 de D. Por último, se toma el máximo de 3, 2 y 2 para obtener el valor de la copia de seguridad de 3 para el nodo raíz.

El algoritmo minimax realiza una exploración completa primero en profundidad del árbol de juego. Si la profundidad máxima del árbol es m y hay b movimientos legales en cada punto,

a continuación, la complejidad de tiempo del algoritmo minimax es

la complejidad de tiempo del algoritmo minimax es La complejidad espacial es por un algoritmo que

La complejidad

de tiempo del algoritmo minimax es La complejidad espacial es por un algoritmo que genera todas
de tiempo del algoritmo minimax es La complejidad espacial es por un algoritmo que genera todas

espacial es por un algoritmo que genera todas las acciones a la vez, o para un algoritmo que genera las acciones de una en una (véase la página 87). Para los juegos reales, por supuesto, el coste de tiempo es totalmente poco práctico, pero este algoritmo sirve como la base para el análisis matemático de juegos y para los algoritmos más prácticas.

5.2.2 Las decisiones óptimas en juegos multijugador

Muchos juegos populares permiten más de dos jugadores. Examinemos cómo extender la idea Minimax para juegos multijugador. Esto es sencillo desde el punto de vista técnico, pero plantea algunas nuevas cuestiones conceptuales interesantes.

En primer lugar, tenemos que sustituir el valor único para cada nodo con un vector de valores. por ejemplo, en un juego de tres jugadores con los jugadores A, B, y C, un vector

de tres jugadores con los jugadores A, B, y C, un vector está asociada con cada

está asociada con cada nodo. Para los estados terminales, este vector da la utilidad del estado del punto de vista de cada jugador. (En dos jugadores, juegos de suma cero, el vector de dos elementos pueden reducirse a un solo valor, porque los valores son siempre opuestas.) La forma más sencilla de implementar esto es tener la función de utilidad devuelve un vector de utilidades. Ahora tenemos que considerar los estados no terminales. Considere el nodo marcada con una X en el ree juego mostrado en la Figura 5.4. En ese estado, el jugador C elige qué hacer. Las dos opciones conducen a estados terminales con vectores de utilidad

conducen a estados terminales con vectores de utilidad Desde 6 es mayor que 3, C debe

Desde 6 es mayor que 3, C debe elegir el primer movimiento. Esto significa que si se alcanza el estado X, el juego posterior conducirá a un estado terminal con utilidades? VA = 1, VB = 2, VC = 6 ?. Por lo tanto, el valor de la copia de seguridad de X es este vector. El valor de la copia de seguridad de un nodo n es siempre la utilidad

de la copia de seguridad de un nodo n es siempre la utilidad Figura 5.3 Un

Figura 5.3 Un algoritmo para el cálculo de las decisiones minimax. Devuelve la acción correspondiente a la mejor jugada posible, es decir, el movimiento que conduce al resultado con la mejor utilidad, bajo el supuesto de que el oponente juega para minimizar utilidad. Las funciones MAX y MIN­valor­valor pasan por todo el árbol de juego, todo el camino hasta las hojas, para determinar el valor de la copia de seguridad de un estado.

La notación argmaxa máximo de f(a).

de un estado. La notación argmax ​ a máximo de f(a). ​ calcula un elemento del

calcula un elemento del conjunto S que tiene el valor

vector del estado sucesor con el valor más alto para el jugador elegir en el

vector del estado sucesor con el valor más alto para el jugador elegir en el n. Cualquiera que juegue juegos multijugador, como la diplomacia, se convierte rápidamente en cuenta lo que está pasando mucho más que en juegos de dos jugadores. juegos multijugador por lo general implican alianzas, ya sea formal o informal, entre los jugadores. Las alianzas se hacen y se rompen como el juego continúa. ¿Cómo hemos de entender este tipo de comportamiento? Son alianzas una consecuencia natural de las estrategias óptimas para cada jugador en un juego de varios jugadores? Resulta que pueden ser. Por ejemplo, supongamos que A y B están en una posición débil y C se encuentra en una posición más fuerte. A continuación, a menudo es óptima para A y B para atacar C en lugar de uno al otro, no sea C destruir cada uno de ellos individualmente. De esta manera, la colaboración emerge de comportamiento puramente egoísta. Por supuesto, tan pronto como C debilita bajo el ataque conjunto, la alianza pierde su valor, y sea A o B podría violar el acuerdo. En algunos casos, las alianzas explícitas simplemente hacen que el hormigón lo que habría ocurrido de todos modos. En otros casos, un estigma social se une a romper una alianza, así que los jugadores deben equilibrar la ventaja inmediata de romper una alianza contra la desventaja a largo plazo de ser percibido como poco fiable. Vea la Sección 17.5 para más información sobre estas complicaciones.

Si el juego no es de suma cero, entonces la colaboración también puede ocurrir con sólo dos jugadores. Supongamos, por ejemplo, que hay un estado terminal con utilidades? Va = 1000, BB = 1000? y que 1000 es el más alto posible utilidad para cada jugador. A continuación, la estrategia óptima es tanto para los jugadores que hagan todo lo posible para llegar a este estado, es decir, los jugadores cooperarán de forma automática para lograr un objetivo mutuamente conveniente.

5.3 Poda alfa­beta:

El problema con la búsqueda minimax es que el número de juego de estados que tiene que examinar es exponencial en la profundidad del árbol. Desafortunadamente, no podemos eliminar el exponente, pero resulta que podemos reducir de manera efectiva por la mitad. El truco es que es posible calcular la decisión minimax correcta sin mirar a cada nodo en el árbol de juego. Es decir, que podemos tomar prestada la idea de la poda del Capítulo 3 para eliminar grandes partes del árbol de la consideración. La técnica particular examinamos se

llama poda alfa­beta. Cuando se aplica a un árbol poda alfa­beta minimax estándar, devuelve el mismo movimiento como Minimax haría, pero las ciruelas pasas de distancia ramas que no es posible que influir en la decisión final. Consideremos de nuevo el árbol de juego de dos capas de la Figura 5.2. Vamos a pasar por el cálculo de la decisión óptima, una vez más, esta vez prestando especial atención a lo que sabemos en cada momento del proceso. Los pasos se explican en la Figura 5.5. El resultado es que podemos identificar la decisión minimax sin tener que evaluar dos de los nodos hoja. Otra forma de ver esto es como un fi cación simplificada de la fórmula para MINIMAX. Dejar que los dos sucesores no evaluadas de nodo C en la Figura 5.5 tienen valores x e y. Entonces, el valor del nodo raíz está dada por:

MINIMAX (raíz) = maxmin (3,12,8), min (2x, y), min (14,5,2))

= Max (3, min (2, x, y), 2)

= Max (3, z, 2), donde z = min (2, x, y) ≤ 2

=3

En otras palabras, el valor de la raíz y por lo tanto la decisión minimax son independientes de los valores de las hojas podadas x e y.

Poda alfa­beta se puede aplicar a los árboles de cualquier profundidad, y que a menudo es posible podar subárboles enteros en lugar de sólo las hojas. El principio general es la siguiente: considerar un nodo n

posible podar subárboles enteros en lugar de sólo las hojas. El principio general es la siguiente:

Figura 5.5 Etapas en el cálculo de la decisión óptima para el árbol de juego en Figure5.2. En cada punto, se muestran los posibles valores rangeof para cada nodo. (A) La primera hoja de abajo fi B tiene el valor. Por lo tanto, B, whichis nodo Amin, tiene un valor de como máximo 3. (b) La segunda hoja por debajo de B tiene un valor de 12; MIN haría un vacío de este movimiento, por lo que el valor de B se encuentra todavía en la mayor parte 3. (c) La tercera hoja por debajo de B tiene un valor de 8; hemos visto todos los estados del sucesor de B, por lo que el valor de B es exactamente 3. Ahora, podemos inferir que el valor de la raíz es al menos 3, debido MAX tiene una opción vale 3 en la raíz. (D) La primera hoja fi debajo de C tiene el valor 2. Por lo tanto, C, que es un nodo MIN, tiene un valor de a lo sumo 2. Pero sabemos que B vale 3, de modo MAX nunca elegir C. Hay tanto, no hay ningún punto en el estudio de los otros estados sucesores de C. Este es un ejemplo de la poda alfa­beta. (E) La primera hoja de abajo fi D tiene el valor 14, por lo que vale la pena D como máximo 14. Esto es todavía más alta que mejor alternativa de MAX (es decir, 3), por lo que debemos seguir explorando D's estados sucesores. Nótese también que ahora tenemos límites en todos los sucesores de la raíz, por lo que el valor de la raíz es también como máximo 14. (f) El segundo sucesor de D vale 5, así que de nuevo tenemos que seguir explorando. El tercer sucesor vale 2, por lo que ahora D vale exactamente decisión 2. MAX en la raíz es mover a B, dando un valor de 3.

en algún lugar en el árbol (véase la Figura 5.6), de tal manera que el jugador tiene la opción de trasladarse a ese nodo. Si el jugador tiene una mejor opción m, ya sea en el nodo padre de n, o en cualquier punto de elección más arriba, entonces n nunca será alcanzado en el juego real. Así que una vez que hemos averiguado lo suficiente sobre n (mediante el examen de algunos de sus descendientes) para llegar a esta conclusión, podemos podarlo. Recuerde que la búsqueda minimax es profundidad­ primero, por lo que en un momento dado sólo tenemos que considerar los nodos a lo largo de un único camino en el árbol. Poda alfa­beta recibe su nombre de los dos parámetros siguientes que describen los límites en los valores de copia de seguridad que aparecen en cualquier lugar a lo largo de la ruta:

que describen los límites en los valores de copia de seguridad que aparecen en cualquier lugar
que describen los límites en los valores de copia de seguridad que aparecen en cualquier lugar

α = el valor de la opción mejor (es decir, valor más alto) se han encontrado hasta la fecha se en cualquier punto de elección a lo largo del camino para MAX.

β = el valor de la opción mejor (es decir, de menor valor) se han encontrado hasta ahora en cualquier punto de elección a lo largo de la ruta para MIN.

Buscar alpha­beta actualiza los valores de α y β, ya que va a lo largo y ciruelas

pasas las ramas restantes en un nodo (es decir, termina la llamada recursiva) tan

pronto como el valor del nodo actual se sabe que es peor que la α actual o valor de

β para MAX o MIN, respectivamente. El algoritmo completo se da en la figura 5.7.

Le animamos a rastrear su comportamiento cuando se aplica al árbol de la figura

5.5.
5.5.

5.3.1 Mover pedido

La eficacia de la poda alfa­beta es dependiente del orden en el que se examinan

los estados altamente. Por ejemplo, en la Figura 5.5 (e) y (f), no podríamos recortar

cualquier sucesores de D en absoluto, porque los peores sucesores (desde el punto

de vista de MIN) se generaron primero. Si el tercer sucesor de D había sido

generado primera, habríamos sido capaces de podar los otros dos. Esto sugiere

que podría valer la pena para intentar examinar primero los sucesores que puedan

ser mejor. Si esto se puede hacer, 2 luego resulta que el alfa­beta tiene que

examinar sólo los nodos O (bm / 2) para escoger el mejor movimiento, en lugar de

O (bm) para Minimax. Esto significa que el factor de ramificación efectiva se

convierte √ b en lugar de b­para el ajedrez, alrededor de 6 en vez de 35. Dicho de

otra manera, alfa­beta pueden resolver un árbol de más o menos dos veces tan

profundo como Minimax en la misma cantidad de tiempo. Si se examinan los

sucesores en orden aleatorio en lugar de primera mejor­, el número total de nodos

examinados será más o menos O (B3M / 4) de moderada b. Forchess, una función

ordenadora bastante simple (como por ejemplo tratar capturas primero, a

continuación, amenazas, después hacia adelante y se mueve, se mueve luego

hacia atrás) se llega a dentro de aproximadamente un factor de 2 de los mejores de

los casos O (bm / 2) resultado.

La adición de esquemas de movimiento­ordenar dinámicos, como tratando primero los movimientos que se han
La adición de esquemas de movimiento­ordenar dinámicos, como tratando primero los movimientos que se han

La adición de esquemas de movimiento­ordenar dinámicos, como tratando primero los movimientos que se han encontrado para ser el mejor en el pasado, nos lleva muy cerca del límite teórico. El pasado podría ser la jugada anterior, a menudo siguen siendo las mismas amenazas, o que podrían provenir de exploración previa del movimiento actual. Una forma de obtener información de la tendencia actual es la búsqueda de profundización iterativa. En primer lugar, buscar 1 capa profunda y registrar el mejor camino de movimientos. A continuación, busque 1 capa más profunda, pero el uso de la trayectoria registrada para informar movimiento de pedido. Como vimos en el capítulo 3, profundización iterativa en un árbol de juego exponencial añade sólo una fracción constante para el tiempo total de búsqueda, que puede ser más que compensado de movimiento mejor ordenamiento. Los mejores movimientos son a menudo llamados movimientos mortales y les tratan primero se llama el asesino movimiento heurístico. En el capítulo 3, se observó que los estados repetidos en el árbol de búsqueda pueden causar un aumento exponencial en el costo de búsqueda. En muchos juegos, estados repetidos ocurren con frecuencia debido a las permutaciones diferentes transposiciones de la secuencia de movimiento que terminan en la misma posición. Por ejemplo, si las blancas tienen un movimiento, a1, que pueden ser respondidas por Negro con b1 y un movimiento a2 no relacionada en el otro lado de la placa que puede ser respondida por b2, entonces las secuencias [a1, b1, a2, b2] y [A2, B2, A1, B1] ambos terminan en la misma posición. Vale la pena para almacenar la evaluación de la posición resultante en una tabla hash la primera vez que se encuentran de manera que no

tenemos que volver a calcular sobre los sucesos posteriores. La tabla de dispersión de las posiciones previamente visto tradicionalmente se llama una tabla de transposición; es esencialmente idéntica a la explorada Lista de grafo de búsqueda (Sección 3.3). Usando una tabla de transposición puede tener un efecto dramático, a veces tanto como la duplicación de la profundidad de la búsqueda alcanzable en el ajedrez. Por otro lado, si estamos evaluando un millón de nodos por segundo, en algún momento que no es práctico para mantener todos ellos en la tabla de transposición. Varias estrategias se han utilizado para elegir qué nodos para mantener y cuáles descartar.

5.4 IMPERFECTOS DECISIONES EN TIEMPO REAL El algoritmo minimax genera todo el espacio de búsqueda juego, mientras que el algoritmo alfa­beta nos permite podar gran parte de ella. Sin embargo, alfa­beta todavía tiene que buscar todo el camino a estados terminales de al menos una parte del espacio de búsqueda. Esta profundidad no suele ser práctico, debido a movimientos deben hacerse en un período razonable de tiempo­por lo general unos pocos minutos como máximo. El artículo de Claude Shannon para programar una computadora para jugar ajedrez (1950) propusieron en cambio que los programas deben cortar la búsqueda anterior y aplicar una función de evaluación heurística a los estados en la búsqueda, convirtiendo nodos no terminales en hojas terminales. En otras palabras, la sugerencia es alterar minimax o alfa­beta de dos maneras: sustituir la función de utilidad por un EVAL función de evaluación heurística, que estima la utilidad de la posición, y reemplazar la prueba terminal mediante una prueba de corte que decide cuándo aplicar EVAL . Eso nos da la siguiente información para Minimax heurístico para s estatales y la profundidad máxima d:

para s estatales y la profundidad máxima d ​ : 5.4.1 Funciones de evaluación Una función

5.4.1 Funciones de evaluación Una función de evaluación devuelve una estimación de la utilidad esperada del partido desde una posición dada, al igual que las funciones heurísticas del capítulo 3 retorno de una estimación de la distancia a la meta. La idea de un estimador no era nueva cuando Shannon propuso. Durante siglos, los jugadores de ajedrez (y aficionados de otros juegos) han desarrollado maneras de juzgar el valor de una posición porque los seres humanos son aún más limitados en la cantidad de búsqueda que pueden hacer que son programas de ordenador. Debe quedar claro que el rendimiento de un programa de juego de papeles depende fuertemente de la calidad de su función de evaluación. Una función de evaluación inexacta guiará un agente hacia posiciones que resultan estar perdido. ¿Cómo es exactamente lo que diseñamos nuevas funciones de evaluación?

En primer lugar, la función de evaluación debe ordenar los estados terminales de la misma manera como la verdadera función de utilidad: los estados que son victorias deben evaluar mejor que dibuja, que a su vez debe ser mejor que las pérdidas. De lo contrario, el uso de un agente de la función de evaluación puede errar incluso si se puede ver hacia adelante

todo el camino hasta el final del juego. En segundo lugar, el cálculo no debe tomar mucho tiempo! (El punto es para buscar más rápido.) En tercer lugar, para que los estados no terminales, la función de evaluación debe ser fuertemente correlacionada con las posibilidades reales de ganar.

Cabría preguntarse acerca de la frase Después de todo, el ajedrez no es un juego de azar "posibilidades de ganar.": Conocemos el estado actual con certeza, y no dados están involucrados. Pero si la búsqueda debe cortar en los estados no terminales, entonces el algoritmo será necesariamente incertidumbre sobre los resultados finales de esos estados. Este tipo de incertidumbre es inducida por limitaciones de cálculo, en lugar de informativos,. Dada la limitada cantidad de cálculo que se le permite hacer a un estado determinado la función de evaluación, lo mejor que puede hacer es hacer una conjetura sobre el resultado final

Hagamos de esta idea más concreta. La mayoría de las funciones de evaluación de trabajo mediante el cálculo de diversas características del ejemplo del estado para, en el ajedrez, tendríamos características para el número de peones blancos, peones negros, blancos reinas, reinas negras, etcétera. Las características, tomadas en conjunto, definen varias categorías o clases de equivalencia de estados: los estados en cada categoría tienen los mismos valores para todas las características. Por ejemplo, una categoría contiene todos los finales de un empeño de dos peones contra. Una categoría determinada, en general, contendrá algunos estados que conducen a victorias, algunos que dan lugar a empates, y algunos que conducen a pérdidas. La función de evaluación no puede saber qué estados son los que, pero puede devolver un único valor que refleje la proporción de estados con cada resultado. Por ejemplo, supongamos que nuestra experiencia sugiere que el 72% de los estados encontró en los dos peones contra uno peón categoría de plomo a una victoria (utilidad 1); 20% a una pérdida (0), y 8% a un drenaje (1/2). A continuación, una evaluación razonable de los estados en la categoría valor esperado es el valor esperado:

En principio, el valor esperado puede ser determinado para cada categoría, lo que resulta en una función de evaluación que funciona para cualquier estado. Al igual que con los estados terminales, la función de evaluación no tiene que devolver valores esperados reales siempre que el orden de los estados es el mismo.

reales siempre que el orden de los estados es el mismo. En la práctica, este tipo

En la práctica, este tipo de análisis requiere demasiadas categorías y, por tanto, demasiada experiencia para estimar todas las probabilidades de ganar. En cambio, la mayoría de las funciones de evaluación calculan las contribuciones numéricas separadas de cada función y luego combinarlas para encontrar el valor total. Por ejemplo, libros de ajedrez introductorios dan un valor aproximado de material para cada pieza: cada peón vale 1, un caballero o un obispo vale 3, una torre 5, y la reina 9. Otras características tales como "buena estructura de peones" y "rey seguridad "podría valer la pena la mitad de un peón, por ejemplo. Estos valores de características se añaden entonces simplemente hasta obtener la evaluación de la posición

Una ventaja equivalente seguro a un peón da una probabilidad sustancial de ganar, y una ventaja segura equivalente a tres peones debe dar victoria casi segura, como se ilustra en

la Figura 5.8 (a). Matemáticamente, este tipo de función de evaluación se llama una función lineal ponderada, ya que puede ser expresado como

función lineal ponderada, ya que puede ser expresado como donde cada wi es un peso y

donde cada wi es un peso y cada fi es una función de la posición. Para el ajedrez, la ficción podría ser el número de cada tipo de pieza en el tablero, y el wi podrían ser los valores de las piezas (1 de empeño, 3 para el obispo, etc.).

La suma de los valores de las características parece una cosa razonable para hacerlo, pero en realidad se trata de un supuesto fuerte: que la contribución de cada característica es independiente de los valores de las otras características. Por ejemplo, asignar el valor 3 a un obispo ignora el hecho de que los obispos son más poderosos en el final del juego, cuando tienen una gran cantidad de espacio para maniobrar

cuando tienen una gran cantidad de espacio para maniobrar Figura 5.8 Dos posiciones de ajedrez que

Figura 5.8 Dos posiciones de ajedrez que se diferencian sólo en la posición de la torre en la parte inferior derecha. En (a), Negro tiene una ventaja de un caballero y dos peones, que debería ser suficiente para ganar el juego. En (b), White capturará la reina, dándole una ventaja que debe ser lo suficientemente fuerte como para ganar.

Por esta razón, los programas actuales de ajedrez y otros juegos también utilizan combinaciones lineales de funciones. Por ejemplo, un par de obispos podría valer la pena un poco más del doble del valor de un solo obispo, y un obispo vale más en el final (es decir, cuando la función de movimiento número es alto o el número de piezas restantes característica es baja )

El lector astuto habrá notado que las características y los pesos no son parte de las reglas del ajedrez! Vienen de siglos de experiencia de jugar al ajedrez humano. En los juegos en este tipo de experiencia no está disponible, los pesos de la función de evaluación pueden ser estimados por las técnicas de aprendizaje automático del capítulo 18. De modo

tranquilizador, la aplicación de estas técnicas en el ajedrez ha confirmado que un obispo es de hecho un valor aproximado de tres peones.

5.4.2 El corte de búsqueda El siguiente paso es modificar alfa­beta­búsqueda para que se llame a la función Eval heurística cuando es apropiado para cortar la búsqueda. Sustituimos las dos líneas en la figura 5.7 que mencionan TERMINAL­TEST con la siguiente línea:

5.7 que mencionan TERMINAL­TEST con la siguiente línea: También hay que organizar para colaborar en la

También hay que organizar para colaborar en la contabilidad de manera que la profundidad actual se incrementa en cada llamada recursiva. El método más sencillo para controlar la cantidad de búsqueda es fijar un límite de profundidad fija de manera que CORTE DE PRUEBA (estado, profundidad) devuelve verdadero para todos profundidad superior a cierta profundidad fija d. (También debe devolver verdadero para todos los estados terminales, tal como lo hizo TERMINAL DE PRUEBA.) La profundidad d se elige de manera que se selecciona un movimiento dentro del tiempo asignado. Un enfoque más robusto es aplicar profundización iterativa. (Véase el Capítulo 3.) Cuando se agote el tiempo, el programa vuelve el movimiento seleccionado por el más profundo de búsqueda completado. Como beneficio adicional, profundización iterativa también ayuda con el traslado de pedido

Estos enfoques simples pueden dar lugar a errores debido a la naturaleza aproximada de la función de evaluación. Consideremos de nuevo la función de evaluación sencilla para el ajedrez basado en la ventaja material. Supongamos que el programa busca en el límite de profundidad, llegando a la posición de la figura 5.8 (b), dónde Negro está a la cabeza de un caballo y dos peones. Sería informar de que el valor heurístico del estado, declarando así que el estado es una victoria probable por Negro. Pero la próxima jugada de las blancas captura de la reina Negro, sin compensación. Por lo tanto, la posición se ganó realmente para las blancas, pero esto puede ser visto sólo por mirar hacia el futuro, una hoja más.

Obviamente, se necesita una prueba de corte más sofisticado. La función de evaluación se debe aplicar sólo a las posiciones que están en reposo, es decir, improbable que presentan grandes oscilaciones en el valor en un futuro próximo. En el ajedrez, por ejemplo, posiciones en las que se pueden hacer capturas favorables no son de reposo para una función de evaluación que solo cuenta material. No secuencias posiciones pueden ampliarse aún más hasta que se alcanzan las posiciones de reposo. Esta búsqueda adicional se llama una búsqueda quiescencia; a veces se limita a considerar sólo ciertos tipos de movimientos, como la captura de movimientos, que resolverán rápidamente las incertidumbres en la posición.

El efecto horizonte es más difícil de eliminar. Surge cuando el programa se enfrenta movimiento de un oponente que causa graves daños y en última instancia, es inevitable, pero se puede evitar temporalmente por dilatorios. Considere la partida de ajedrez en la Figura 5.9. Está claro que no hay manera para que el alfil negro se escape. Por ejemplo, la torre blanca puede capturar moviendo a h1, a continuación, a1, a2 a continuación; una captura en la profundidad 6 capas. Pero Negro tiene una secuencia de movimientos que empuja a la captura del obispo "en el horizonte." Supongamos búsquedas negros a

profundidad de 8 capas. La mayoría de los movimientos por Negro dará lugar a la eventual captura del obispo, y por lo tanto serán marcados como "malos" se mueve. Pero Negro tendrá en cuenta la comprobación del rey blanco con el peón en e4. Esto dará lugar a que el rey capturar el peón. Ahora Negro va a considerar el control de nuevo, con el peón en f5, lo que lleva a otra captura de peón. Para eso se necesita hasta 4 capas, y desde allí el 4 capa restante no es suficiente para capturar el obispo. Negro cree que la línea de juego ha salvado el obispo al precio de dos peones, cuando en realidad lo único que ha hecho es empujar la captura inevitable del obispo más allá del horizonte que puede ver negro.

Una de las estrategias para mitigar el efecto horizonte es la extensión del singular, una medida que es "claramente mejor" que todos los demás se mueve en una posición dada. Una vez descubierto en cualquier parte del árbol en el curso de un registro, este movimiento singular es recordado. Cuando la búsqueda llega al límite de la profundidad normal, el algoritmo comprueba para ver si la extensión singular es un movimiento legal; si lo es, el algoritmo permite el paso a ser considerado. Esto hace que el árbol más profundo, pero ya que habrá pocas extensiones singulares, que no aporta muchos nodos en total al árbol.

5.4.3 poda Delantero Hasta ahora, hemos hablado sobre cortar la búsqueda en un cierto nivel y trata de hacer la poda alfa­beta que demostrablemente no tiene ningún efecto sobre el resultado (al menos con respecto a los valores de evaluación heurística). También es posible hacer la poda hacia adelante, lo que significa que algunos se mueve a un nodo dado se podan inmediatamente, sin más consideraciones. Es evidente que la mayoría de los seres humanos que juegan a ajedrez consideran sólo unos pocos movimientos de cada posición (al menos conscientemente). Un enfoque para reenviar la poda es la búsqueda de haz: en cada capa, considere sólo un "haz" de los n mejores movimientos (de acuerdo a la función de evaluación) en lugar de considerar todos los movimientos posibles.

en lugar de considerar todos los movimientos posibles. Figura 5.9 El efecto horizonte. Con Negro para

Figura 5.9 El efecto horizonte. Con Negro para mover, el alfil negro es, sin duda condenada. Pero Negro puede impedir ese evento marcando el rey blanco con sus peones, lo que obligó al rey para capturar los peones. Esto empuja a la pérdida inevitable del obispo sobre el horizonte, y por lo tanto los sacrificios de empeño son vistos por el algoritmo de búsqueda como buenos movimientos en lugar de los malos.

Por desgracia, este enfoque es bastante peligroso porque no hay ninguna garantía de que la mejor jugada no será podada de distancia

El corte probabilístico o corte probabilístico, el algoritmo (Buro, 1995) es una versión con visión de poda de búsqueda alfa­beta que utiliza las estadísticas obtenidas a partir de la experiencia previa para disminuir la posibilidad de que la mejor jugada será podada. Alfa­beta de búsqueda ciruelas cualquier nodo que se puede probar fuera de la ventana actual (α, β). También corte probabilístico poda nodos que son, probablemente, fuera de la ventana. Se calcula esta probabilidad mediante una búsqueda superficial para calcular el valor v copia de seguridad de un nodo y luego usando la experiencia del pasado para estimar qué tan probable es que una puntuación de v en la profundidad d en el árbol estaría fuera (α, β) . Buro aplica esta técnica a su programa de Otelo, Logistello, y encontró que una versión de su programa con corte probabilístico venció a la versión normal de 64% de las veces, incluso cuando la versión normal se le dio el doble de tiempo

La combinación de todas las técnicas descritas aquí se traduce en un programa que puede jugar al ajedrez acreditable (u otros juegos). Supongamos que hemos implementado una función de evaluación para el ajedrez, una prueba de corte razonable con una búsqueda quiescencia, y una tabla de transposición de gran tamaño. Supongamos también que, después de meses de tediosa bit­bashing, podemos generar y evaluar alrededor de un millón de nodos por segundo en el último PC, lo que nos permite una búsqueda aproximada de 200 millones de nodos por mueven bajo el control de tiempo estándar (tres minutos por jugada) . El factor de ramificación para el ajedrez es de aproximadamente 35 años, en promedio, y 355 es de aproximadamente 50 millones de dólares, por lo que si utilizamos la búsqueda minimax, podríamos mirar hacia adelante sólo unos cinco capas. Aunque no es competente, un programa de este tipo puede ser engañado fácilmente por un jugador de ajedrez humano promedio, que en ocasiones puede planificar seis u ocho capas por delante. Con la búsqueda alfa­beta se llega a cerca de 10 capas, lo que resulta en un nivel de expertos de juego. Sección 5.8 se describen las técnicas de poda adicionales que pueden ampliar la profundidad de la búsqueda efectiva de aproximadamente 14 capas. Para alcanzar el estatus de gran maestro necesitaríamos una función de evaluación sintonizar ampliamente y una gran base de datos de la apertura óptima y End­Game mueve.

5.4.4 Búsqueda vs operaciones de búsqueda De alguna manera, parece un exceso de un programa de ajedrez para iniciar un juego al considerar un árbol de un billón de estados del juego, sólo para concluir que va a mover su peón de e4. Libros que describen el buen juego en la apertura y el final del juego en el ajedrez han estado disponibles desde hace aproximadamente un siglo (Tattersall, 1911). No es sorprendente, por lo tanto, que muchos programas de juego de papeles usan búsqueda en la tabla en lugar de buscar la apertura y el final de los juegos.

Por las aberturas, el equipo se basa principalmente en la experiencia de los seres humanos. El mejor consejo de los expertos humanos sobre cómo jugar cada abertura se copia de libros y entró en tablas para el uso de la computadora. Sin embargo, los ordenadores también pueden obtener estadísticas de una base de datos de partidos jugados con

anterioridad para ver qué secuencias de apertura más a menudo conducen a una victoria. En los primeros movimientos hay pocas opciones, y por lo tanto mucho comentarios de expertos y los juegos anteriores en la que basarse. Por lo general, después de diez movimientos que terminan en una posición rara vez visto, y el programa hay que cambiar de búsqueda en la tabla de búsqueda.

Cerca del final del juego hay de nuevo un menor número de posiciones posibles, y por lo tanto más posibilidades de hacer operaciones de búsqueda. Pero aquí es el equipo que tiene la experiencia: análisis informático de los finales va mucho más allá de lo logrado por los seres humanos. Un ser humano puede indicarle la estrategia general para la reproducción de un final de rey­y­torre­contra­rey (KRK): reducir la movilidad del rey opposin apretándolo hacia uno de los bordes de la junta, la utilización de su rey para evitar que el oponente se escape de la exprimir. Otras terminaciones, como rey, obispo y caballo contra rey (KBNK), son difíciles de dominar y no tienen sucinta descripción de la estrategia. Una computadora, POLÍTICA, por otro lado, puede resolver completamente el final del juego mediante la producción de una política, que es un mapeo de todos los estados posibles de la mejor jugada en ese estado. Entonces sólo podemos buscar la mejor jugada en lugar de volver a calcular que de nuevo. ¿Qué tan grande será la tabla de búsqueda KBNK? Resulta que hay 462 maneras de que dos reyes se pueden colocar en el tablero sin ser adyacente. Después de que los reyes se colocan, hay 62 plazas vacías para el obispo, 61 para el caballero, y dos jugadores posibles para mover al lado, por lo que no son sólo

posibles para mover al lado, por lo que no son sólo posibles posiciones. Algunos de estos

posibles posiciones. Algunos de estos son jaque mate; marcarán como tal en una tabla. A continuación, realice una búsqueda minimax retrógrada:

revertir las reglas del ajedrez que hacer movimientos de las Naciones Unidas en lugar de movimientos. Cualquier jugada de White de que, no importa qué movimiento Negro responde con, termina en una posición marcada como una victoria, también debe ser una victoria. Continuar esta búsqueda hasta que todas las posiciones 3,494,568 se resuelven de la victoria, pérdida o dibujar, y usted tiene una tabla de búsqueda infalible para todos los finales KBNK

El uso de esta técnica y un tour de force de trucos de optimización, Ken Thompson (1986, 1996) y Lewis Stiller (1992, 1996) resolvió todos los finales de ajedrez con un máximo de cinco piezas y algunas de ellas con seis piezas, haciéndolos disponibles en Internet. Stiller descubrió un caso en que existía un mate forzado, pero requiere 262 movimientos; esto causó cierta consternación debido a que las reglas del ajedrez requieren una captura o movimiento de un peón a ocurrir dentro de 50 movimientos. Estudios posteriores de Marc Bourzutschky y Yakov Konoval (Bourzutschky, 2006) resuelve todos pawnless de seis piezas y algunos finales de siete piezas; hay un juego final que KQNKRBN con el mejor juego requiere 517 se mueve hasta una captura, que a su vez conduce a un compañero

Si pudiéramos extender las tablas de finales de ajedrez partir de 6 unidades de 32, entonces las blancas sabría en el movimiento de apertura si sería un triunfo, pérdida, o dibujar. Esto no ha ocurrido hasta el momento para el ajedrez, pero ha ocurrido para damas, como se explica en la sección de notas histórica.

5.5 juegos estocásticos:

En la vida real, muchos eventos externos impredecibles pueden ponernos en situaciones imprevistas. Muchos juegos de espejo esta imprevisibilidad mediante la inclusión de un elemento de azar, tales como el lanzamiento de dados. Llamamos a estos juegos estocásticos. Backgammon es un típico juego que combina suerte y habilidad. Dados se lanzan al comienzo del turno de un jugador para determinar los movimientos legales. En la posición de backgammon de la figura 5.10, por ejemplo, White ha lanzado un 6­5 y tiene cuatro movimientos posibles.

En la vida real, muchos eventos externos impredecibles pueden ponernos en situaciones imprevistas. Muchos juegos de espejo esta imprevisibilidad mediante la inclusión de un elemento de azar, tales como el lanzamiento de dados. Llamamos a estos juegos estocásticos. tablero es un típico juego que combina suerte y habilidad. Dados se lanzan al comienzo del turno de un jugador para determinar los movimientos legales. En la posición de tablero de la figura 5.10, por ejemplo, el blanco ha lanzado un 6­5 y tiene cuatro movimientos posibles.

ha lanzado un 6­5 y tiene cuatro movimientos posibles. Aunque Blanca sabe lo que sus movimientos

Aunque Blanca sabe lo que sus movimientos orher ownlegal son, Blanco no sabe qué Negro va a rodar y por lo tanto no saben cuáles serán las negras movimientos legales. Eso significa que las blancas no pueden construir un árbol de juego estándar del tipo que vimos en el ajedrez y el tic­tac­dedo del pie. Un árbol de juego en chaquete debe incluir nodos de probabilidad, además de los nodos MAX y MIN. nodos de probabilidad se muestran como círculos en la Figura 5.11. Las ramas principales de cada nodo de azar denotan las posibles tiradas de dados; cada rama se etiqueta con el rodillo y su probabilidad. Hay 36 maneras de rodar dos dados, cada e Qually probable; pero debido a que un 6­5 es el mismo que un 5­6,

sólo hay 21 rodillos distintos. Los seis dobles (1­1 a 6­6) tienen cada uno una probabilidad de 1/36, por lo que dicen P (1­1) = 1/36. Los otros 15 rollos distintos cada uno tiene una probabilidad de 1/18.

15 rollos distintos cada uno tiene una probabilidad de 1/18. Aunque Blanca sabe lo que sus
15 rollos distintos cada uno tiene una probabilidad de 1/18. Aunque Blanca sabe lo que sus

Aunque Blanca sabe lo que sus movimientos orher ownlegal son, Blanco no sabe qué Negro va a rodar y por lo tanto no saben cuáles serán las negras movimientos legales. Eso significa que las blancas no pueden construir un árbol de juego estándar del tipo que vimos en el ajedrez y el tic­tac­dedo del pie. Un árbol de juego en chaquete debe incluir nodos de probabilidad, además de los nodos MAX y MIN. nodos de probabilidad se muestran como círculos en la Figura 5.11. Las ramas principales de cada nodo de azar denotan las posibles tiradas de dados; cada rama se etiqueta con el rodillo y su probabilidad. Hay 36 maneras de rodar dos dados, cada e Qually probable; pero debido a que un 6­5 es el mismo que un 5­6, sólo hay 21 rodillos distintos. Los seis dobles (1­1 a 6­6) tienen cada uno una probabilidad

de 1/36, por lo que dicen P (1­1) = 1/36. Los otros 15 rollos distintos cada uno tiene una probabilidad de 1/18.

15 rollos distintos cada uno tiene una probabilidad de 1/18. donde r representa un posible lanzamiento

donde r representa un posible lanzamiento de dados (u otro suceso fortuito) y resultado (s, r) es el mismo estado que s, con el hecho adicional de que el resultado de la tirada es r.

5.5.1 Funciones de evaluación para los juegos de azar

Al igual que con minimax, la aproximación obvio para hacer con esperar minimax es cortar la búsqueda fuera en algún momento y aplicar una función de evaluación para cada hoja. Uno podría pensar que las funciones de evaluación para juegos como el backgammon deben ser como las funciones de evaluación para el ajedrez que sólo hay que dar una puntuación más alta a mejores posiciones. Pero, de hecho, la presencia de nodos de probabilidad significa que uno tiene que tener más cuidado con lo que significan los valores de evaluación. La Figura 5.12 muestra lo que sucede: con una función de evaluación que asigna los valores [1, 2, 3, 4] para las hojas, mover A1 es mejor; con los valores [1, 20, 30, 400], mover a2 es mejor. Por lo tanto, el programa se comporta de forma totalmente diferente si hacemos un cambio en la escala de algunos valores de evaluación! Resulta que para evitar esta sensibilidad, la función de evaluación debe ser una transformación lineal positiva de la probabilidad de ganar de una posición (o, más generalmente, de la utilidad esperada de la posición). Esta es una propiedad importante y general de las situaciones en las que participa la incertidumbre, y lo discutimos en el capítulo 16.

importante y general de las situaciones en las que participa la incertidumbre, y lo discutimos en

Si el programa sabía de antemano todas las tiradas de dados que se producirían por el resto del juego, resolviendo un juego con dados sería igual que la solución de un juego sin dados, que Minimax hace en O (bm) tiempo, donde b es la ramificación factores y m es la profundidad máxima del árbol de juego. Debido expectiminimax también está considerando todas las posibles secuencias de los dados en eventos, que tomará O (bmnm), donde es el número de rollos distintos. Incluso si la profundidad de la búsqueda se limita a una pequeña profundidad d, el coste adicional en comparación con la de Minimax hace poco realista considerar que anticipa muy lejos en la mayoría de los juegos de azar. En el backgammon n es 21 y b es generalmente alrededor de 20, pero en algunas situaciones puede ser tan alta como 4000 para tiradas de dados que son dobles. Tres capas es probablemente todo lo que podía soportar. Otra forma de pensar en el problema es el siguiente: la ventaja de alfa­beta es que no tiene en cuenta la evolución futura que simplemente no van a suceder, dada la mejor obra. Por lo tanto, se concentra en los sucesos probables. En los juegos con dados, no hay secuencias de movimientos posibles, porque para esos movimientos que tienen lugar, los dados estarían primera tiene que salir de la manera correcta para que sean legales. Este es un problema general cada vez que entra en el cuadro de incertidumbre: las posibilidades se multiplican enormemente, y la formación de los planes de acción detallados se convierte en inútil, porque el mundo probablemente no será el juego. Puede haber ocurrido que algo así como la poda alfa­beta podría aplicarse

5.6 JUEGOS PARCIALMENTE OBSERVABLES Ajedrez menudo se ha descrito como la guerra en miniatura, pero carece de al menos una de las principales características de las guerras reales, es decir, observabilidad parcial. En la "niebla de guerra", la existencia y disposición de las unidades enemigas es a menudo desconocida hasta que se produce el contacto directo. Como resultado, la guerra incluye el uso de exploradores y espías para reunir información y el uso de ocultación y un farol para confundir al enemigo. juegos parcialmente observables comparten estas características y por tanto son cualitativamente diferentes de los juegos que se describen en las secciones anteriores.

5.6.1 Kriegspiel: ajedrez parcialmente observable En los juegos parcialmente observables deterministas, la incertidumbre sobre el estado de la junta corresponda en su totalidad por la falta de acceso a las decisiones tomadas por el oponente. Esta clase incluye juegos infantiles como acorazados (donde los barcos de cada jugador se colocan en lugares ocultos del oponente, pero no se mueven) y Stratego (donde se conocen las ubicaciones pieza sino tipos de piezas están ocultos juego de guerra). Vamos a examinar el juego de juego de guerra, una variante parcialmente observable de ajedrez en el que las piezas se mueven pero son completamente invisibles para el oponente.

Las reglas de juego de guerra son los siguientes: Blanco y Negro cada uno ver una tabla que contiene sólo sus propias piezas. Un árbitro, que puede ver todas las piezas, adjudica el juego y hace periódicamente anuncios que se escuchan por ambos jugadores. En su turno, Blanco propone al árbitro cualquier movimiento que sea legal, si no hay piezas negras. Si el movimiento es, de hecho, no es legal (debido a las piezas negras), el árbitro anuncia "ilegal". En este caso, blanco puede seguir proponiendo mueve hasta que se

encuentre, y una legal aprende más acerca de la ubicación de las piezas negras en la proceso. Una vez que se propone un movimiento legal, el árbitro anuncia uno o más de lo siguiente: "Captura en la X cuadrada" si hay una captura, y "Compruebe por D" si el rey negro está en jaque, donde D es la dirección del cheque, y puede ser uno de "Caballero", " . rango "," archivo "," diagonal larga "o" corta en diagonal "(. En el caso de revisar descubierto, el árbitro puede hacer dos" Verificar "anuncios) Si está en jaque mate o Negro un punto muerto, el árbitro lo dice; de lo contrario, es el turno de Negro para moverse.

Kriegspiel puede parecer terriblemente imposible, pero los seres humanos manejarlo bastante bien y los programas de ordenador están empezando a ponerse al día. Ayuda a recuperar la noción de un estado de creencia como se define en la Sección 4.4 e ilustrado en la Figura 4.14­el conjunto de todos los posibles estados de mesa lógicamente dada la historia completa de las percepciones hasta la fecha. Inicialmente, el estado creencia de White es un producto único porque las piezas negras no han movido todavía. Después de White hace un movimiento y Negro responde, estado creencia de blanco contiene 20 posiciones debido Negro tiene 20 respuestas a cualquier movimiento blanco. Hacer un seguimiento del estado creencia de que el juego progresa es exactamente el problema de la estimación de estado, para lo cual se le da el paso de la actualización en la ecuación (4.6). Podemos trazar la estimación del estado Kriegspiel directamente sobre el marco parcialmente observable, no determinista de la Sección 4.4 si tenemos en cuenta que el oponente como la fuente de determinismo; es decir, los resultados de la jugada de las blancas se componen de los resultados (predecible) del propio movimiento de las blancas y el resultado impredecible dada por la respuesta de Negro

Teniendo en cuenta el estado actual creencia, blanco puede preguntar: "¿Puedo ganar el juego" Para un juego parcialmente observable, la noción de una estrategia se altera; en lugar de especificar un movimiento de hacer para cada posible movimiento del oponente podría hacer, necesitamos un movimiento para cada posible secuencia de percepciones que podrían ser recibido. Para Kriegspiel, una estrategia ganadora, o jaque mate garantizada, es uno que, para cada posible secuencia de percepciones, conduce a un jaque mate real para cada posible estado del tablero en el estado actual creencia, independientemente de cómo el oponente se mueve. Con esta definición, el estado creencia rival es irrelevante la estrategia tiene que trabajar incluso si el oponente puede ver todas las piezas. Esto simplifica enormemente el cálculo. La Figura 5.13 muestra parte de un jaque mate garantizada para el KRK (rey y torre contra rey) final del juego. En este caso, Negro tiene sólo una pieza (el rey), por lo que un estado de creencia para las blancas se pueden mostrar en una sola tarjeta, marcando cada posible posición del rey Negro.

El algoritmo general AND­OR de búsqueda puede ser aplicado al espacio de estado creencia de encontrar jaque mate garantizados, al igual que en la sección 4.4. El algoritmo de estado de creencias elementales indicado en esta sección se encuentra a menudo da jaque mate a la mitad del juego hasta una profundidad de 9 probablemente mucho más allá de las habilidades de los jugadores humanos.

Además de jaque mate garantizados, Kriegspiel admite un concepto totalmente nuevo que no tiene sentido en los juegos totalmente observables: jaque mate probabilístico. Tales

jaque mate todavía están obligados a trabajar en todos los estados bordo en el estado de creencias; que son probabilísticas con respecto a la asignación al azar de ganar del jugador se mueve. Para obtener la idea básica, tenga en cuenta el problema de encontrar un rey negro solitario utilizando sólo el rey blanco. Simplemente moviendo al azar, el rey blanco finalmente chocar contra el rey negro, incluso si éste intenta evitar este destino, ya que Negro no puede seguir adivinando los movimientos evasivos derecha indefinidamente. En la terminología de la teoría de la probabilidad, la detección ocurre con probabilidad 1. El juego final KBNK­rey, obispo

ocurre con probabilidad 1. El juego final KBNK­rey, obispo Figura 5.13 Parte de un jaque mate

Figura 5.13 Parte de un jaque mate garantizada en el final KRK, que se muestra en una tabla reducida. En el estado creencia inicial, rey de Negro se encuentra en uno de los tres posibles ubicaciones. Por una combinación de movimientos con palpador, la estrategia se reduce esto a uno. La finalización del jaque mate se deja como ejercicio.

y caballo contra rey­se ganó en este sentido; Blanco Negro presenta con una secuencia aleatoria infinita de opciones, para uno de los cuales Negro va a adivinar incorrectamente y revelar su posición, lo que lleva a un jaque mate. El final KBBK, por el contrario, se gana

a un jaque mate. El final KBBK, por el contrario, se gana con probabilidad 1­ .white

con probabilidad 1­ .white puede forzar una victoria solamente por dejar uno de sus obispos no protegidos por un movimiento. Si Negro pasa a estar en el lugar correcto y captura del obispo (un movimiento que perder si los obispos están protegidos), la partida es

que perder si los obispos están protegidos), la partida es tablas. El blanco puede optar por

tablas. El blanco puede optar por hacer el movimiento arriesgado en algún punto elegido al azar en medio de una secuencia muy larga, lo que reduce a una constante arbitraria

en medio de una secuencia muy larga, lo que reduce a una constante arbitraria pequeña, pero

pequeña, pero no se puede reducir a cero.

Es muy raro que un jaque mate garantizado o probabilístico se puede encontrar dentro de cualquier profundidad razonable, excepto en el final del juego. A veces una estrategia jaque mate funciona para algunos de los estados de mesa en el estado actual creencia pero no en otros. Tratando esta estrategia puede tener éxito, dando lugar a un jaque mate­accidental en el sentido de que Blanca no podía saber que sería jaque mate, si las piezas negras resultan ser en los lugares correctos accidental. (La mayoría de jaque mate en los juegos entre los seres humanos son de esta naturaleza accidental.) Esta idea conduce naturalmente a la cuestión de qué tan probable es que una determinada estrategia va a ganar, lo que conduce a su vez a la cuestión de qué tan probable es que cada estado del tablero de el estado actual creencia es el verdadero estado del tablero.

Uno de primera inclinación podría ser la de proponer que todos los estados de mesa en el estado actual creencia son igualmente probables, pero esto no puede estar bien. Consideremos, por ejemplo, la creencia de estado blanca después de la primera jugada del juego de Negro. Por definición (suponiendo que juega de manera óptima Negro), Negro debe haber jugado un movimiento óptimo, por lo que todos los estados de mesa resultantes de movimientos óptimos debe ser asignado probabilidad cero. Este argumento no es del todo bien tampoco, porque el objetivo de cada jugador no es sólo para mover las piezas a las casillas correctas, sino también para reducir al mínimo la información que el oponente tiene acerca de su ubicación. Jugar cualquier estrategia predecible "óptima" proporciona al oponente con la información. Por lo tanto, el juego óptimo en juegos parcialmente observables requiere estar dispuesto a jugar un poco al azar. (Esta es la razón por inspectores de higiene restaurante hacen visitas de inspección al azar.) Esto significa que de vez en cuando la selección de movimientos que pueden parecer "intrínseca" débil, pero que adquieren la fuerza de su muy impredecible, debido a que el oponente es poco probable que han preparado ninguna defensa contra ellos.

A partir de estas consideraciones, parece que las probabilidades asociadas a los estados de mesa en el estado actual creencia sólo es posible elaborar una estrategia dio aleatorizado óptima; a su vez, el cálculo de esa estrategia parece requerir conocer las probabilidades de los distintos estados de la junta podría estar en. Este dilema se puede resolver mediante la adopción de la noción teoria de juegos de una solución de equilibrio, lo que perseguimos en el capítulo 17. Un equilibrio especifica una óptima estrategia aleatorio para cada jugador. equilibrios Computing es prohibitivamente caro, sin embargo, incluso para los pequeños juegos, y está fuera de la cuestión para Kriegspiel. En la actualidad, el diseño de algoritmos eficaces para el juego Kriegspiel general es un tema de investigación abierto. La mayoría de los sistemas de búsqueda hacia delante realizan acotada a fondo en su propio espacio estado creencia, haciendo caso omiso del estado creencia rival. Funciones de evaluación se parecen a los del juego observable pero incluyen un componente para el tamaño de la creencia de estado más pequeño es mejor!

5.6.2 Los juegos de cartas Los juegos de cartas proporcionan muchos ejemplos de observabilidad parcial estocástico, donde se genera la información que falta al azar. Por ejemplo, en muchos juegos, las cartas se reparten al azar al comienzo del juego, y cada jugador recibe una mano que no es visible

a los otros jugadores. Estos juegos incluyen puente, whist, corazones, y algunas formas de póquer

yers. Estos juegos incluyen puente, whist, corazones, y algunas formas de póquer. A primera vista, podría parecer que estos juegos de cartas son como juegos de dados: las cartas se reparten al azar y determinar los movimientos disponibles para cada jugador, pero todos los "dados" se rodó en el comienzo! A pesar de que esta analogía resulta ser incorrecta, sugiere un algoritmo efectivo: considerar todas las posibles ofertas de las tarjetas invisibles; resolver cada uno como si fuera un juego totalmente observables; y luego elegir el movimiento que tiene el mejor resultado como media de todas las ofertas. Supongamos que cada reparto s ocurre con probabilidad P (s); entonces el movimiento que queremos es

probabilidad P (s); entonces el movimiento que queremos es Aquí, corremos MINIMAX exacta si computacionalmente

Aquí, corremos MINIMAX exacta si computacionalmente factible; de lo contrario, corremos H­MINIMAX.

Ahora, en la mayoría de los juegos de cartas, el número de posibles ofertas es bastante grande. Por ejemplo, en el puente del juego, cada jugador ve sólo dos de las cuatro manos; hay dos manos invisibles de 13 cartas cada uno, por lo que el número de ofertas es

de 13 cartas cada uno, por lo que el número de ofertas es Resolver ni un

Resolver ni un trato es bastante difícil, por lo resolviendo diez millones está fuera de la cuestión. En lugar de ello, se recurre a una aproximación de Monte Carlo: en lugar de sumar todas las ofertas, se toma una muestra aleatoria de n ofertas,

donde la probabilidad de acuerdo s que aparece en la muestra es proporcional a

de acuerdo s que aparece en la muestra es proporcional a (Nótese que P (s) no
de acuerdo s que aparece en la muestra es proporcional a (Nótese que P (s) no

(Nótese que P (s) no aparece explícitamente en la suma, debido a que las muestras ya se dibujan de acuerdo a P (s).) A medida que N aumenta de tamaño, la suma sobre la muestra aleatoria tiende al valor exacto, pero incluso para bastante pequeña N­decir, 100 a 1000­el método da una buena aproximación. También puede ser aplicado a juegos deterministas como Kriegspiel, dado alguna estimación razonable de P (s).

Para juegos como el whist y los corazones, donde no hay una oferta o de la fase de apuestas antes de que comience el juego, cada operación será la misma probabilidad y por

lo tanto los valores de P (s) son todos iguales. Para el puente, el juego es precedida por una

fase de licitación en el que cada equipo indica cuántos trucos que espera ganar. Ya que los jugadores oferta en función de las cartas que tienen, los otros jugadores a aprender más acerca de la probabilidad de cada oferta. Teniendo esto en cuenta para decidir cómo jugar la mano es difícil, por las razones mencionadas en la descripción del juego de guerra: los jugadores pueden hacer una oferta de tal manera que se minimice la información transmitida a sus oponentes. Aún así, el método es muy eficaz para el puente, como se muestra en la Sección 5.7.

La estrategia descrita en las ecuaciones 5.1 y 5.2 veces se llama un promedio de más videncia porque se supone que el juego podrán observarse que ambos jugadores inmediatamente después del primer movimiento. A pesar de su atractivo intuitivo, la estrategia puede conducir un mal camino. Tenga en cuenta la siguiente historia:

Día 1: Un camino conduce a un montón de oro; Carretera B conduce a un tenedor. Tome el tenedor a la izquierda y encontrará un montón grande de oro, pero toma el tenedor a la derecha y será atropellado por un autobús.

Día 2: Un camino conduce a un montón de oro; Carretera B conduce a un tenedor. Tome el tenedor a la derecha y encontrará un montón grande de oro, pero tomar el tenedor a la izquierda y será atropellado por un autobús.

Día 3: Un camino conduce a un montón de oro; Carretera B conduce a un tenedor. Una rama del tenedor conduce a un montón grande de oro, pero tomar el tenedor equivocado y se le atropellado por un autobús. Por desgracia no se sabe qué tenedor es cuál.

Un promedio de más clarividencia conduce al siguiente razonamiento: el día 1, B es la elección correcta; El día 2, B es la elección correcta; el día 3, la situación es la misma que o bien el día 1 o 2, por lo que B debe todavía ser la elección correcta

Ahora podemos ver cómo un promedio de más videncia falla: no tiene en cuenta el estado creencia de que el agente será después de la actuación. Un estado de la creencia de la ignorancia total no es deseable, especialmente cuando una de las posibilidades es la muerte segura. Porque se supone que cada estado futuro será automáticamente una de conocimiento perfecto, el enfoque no selecciona las acciones que recopilan información (como el primer paso en la Figura 5.13); ni va a elegir las acciones que se esconden información del oponente o proporcionan información a un compañero porque se supone que ellos ya conocen la información; y nunca será un farol en el póquer, 4 ASCO porque se supone que el oponente puede ver sus cartas. En el capítulo 17, se muestra cómo construir algoritmos que hacen todas estas cosas, en virtud de la resolución del problema de decisión verdadera parcialmente observable.

5.7 Estado de los Programas de Arte del juego:

RYBKA, ganador del Campeonato de ajedrez de ordenador Mundo de 2008 y 2009, se considera que el jugador actual del equipo más fuerte. Se utiliza un off­the­shelf de 8 núcleos a 3,2 GHz procesador Intel Xeon, pero se sabe poco sobre el diseño del programa. La principal ventaja de RYBKA parece ser su función de evaluación, que ha sido puesto a

punto por su principal promotor, el Maestro Internacional Vasik Rajlich, y al menos otros tres grandes maestros. Los partidos más recientes sugieren que los programas de ajedrez de ordenador superiores se han retirado por delante de todos los contendientes humanos. (Ver las notas históricas para más detalles.) Damas: Jonathan Schaeffer y sus colegas desarrollaron Chinook, que se ejecuta en los ordenadores regulares y utiliza la búsqueda alfa­beta. Chinook derrotó al campeón humano de larga duración en un matchin1990 abreviada, andsince 2007 CHINOOKhasbeenable toplay byusing perfectamente búsqueda alfa­beta combinado con una base de datos de 39 billones de posiciones de finales. Otelo, también llamado Reversi, es probablemente más popular como un juego de ordenador que como un juego de mesa. Cuenta con un espacio de búsqueda más pequeño que el ajedrez, por lo general de 5 a 15 movimientos legales, pero la experiencia de evaluación tuvo que ser desarrollado desde cero. En 1997, el programa Logistello (Buro, 2002) derrotó thehumanworldchampion, TakeshiMurakami, bysix gamestonone. Itisgenerally reconoció que los seres humanos no pueden competir con los ordenadores en Otelo. Backgammon:

Sección 5.5 explica la razón por la inclusión de la incertidumbre de las tiradas de dados hace que la búsqueda de profundidad un lujo caro. La mayoría del trabajo en el backgammon ha entrado en la mejora de la función de evaluación. Gerry Tesauro (1992) el aprendizaje con redes neuronales para desarrollar un evaluador notablemente exacto que se utiliza con una búsqueda en profundidad de 2 o 3. Después de jugar más de un millón de juegos de entrenamiento contra sí refuerzo combinado, el programa del Tesauro, TD­Gammon, es competitivo con los mejores jugadores humanos. Los dictámenes del programa sobre los movimientos de apertura del juego en algunos casos han alterado radicalmente la sabiduría recibida. Go es el juego de mesa más popular en Asia. Debido a que el tablero es de 19 × 19 y se mueve están permitidos en (casi) todas las plazas vacías, el factor de ramificación comienza en 361, que es demasiado desalentador para los métodos de búsqueda alfa­beta regulares. Además, es difícil escribir una función de evaluación, porque el control del territorio es a menudo muy impredecible hasta el final del juego. Por lo tanto los mejores programas, como MOGO, evitan la búsqueda alfa­beta y en su lugar utilizan Monte Carlorollouts. Thetrick istodecide whatmovestomake inthecourse Ofthe despliegue. esta es poda agresiva; todos los movimientos son posibles. El método UCT (confianza límites superiores de los árboles) actúa haciendo que mueve al azar en el primer pocas iteraciones, y con el tiempo la orientación del proceso de muestreo a preferir los movimientos que han llevado a victorias en las muestras anteriores. se añaden algunos trucos, incluidas las normas basadas en el conocimiento que sugieren particulares mueve cada vez que se detecta un patrón determinado y limitado de búsqueda local para decidir cuestiones tácticas. Algunos programas también incluyen técnicas especiales de la teoría de juegos para analizar los finales combinatoria. Estas técnicas se descomponen una posición en sub­posiciones que se pueden analizar por separado y luego combinado (Berlekamp y Wolfe, 1994; Müller, 2003). Las soluciones óptimas obtenidas de esta manera han sorprendido a muchos jugadores profesionales, que pensaban que habían estado jugando de manera óptima todo el tiempo. Van los programas actuales juegan a nivel de maestría en una reducción de placa 9 × 9, pero aún se encuentran en el nivel aficionado avanzado en un tablero completo. Bridge es un juego de cartas de información imperfecta:

cartas de un jugador están ocultos a los otros jugadores. Puente es también un juego de varios jugadores con cuatro en lugar de dos, aunque el los jugadores están emparejados en dos equipos. Al igual que en la sección 5.6, un juego óptimo en la recogida parcialmente

observable gameslike bridgecaninclude elementsofinformation, comunicación, andcareful ponderación de probabilidades. Muchas de estas técnicas se utilizan en el programa Bridge Baron (Smith et al., 1998), que ganó el campeonato del puente equipo de 1997. A pesar de que no juega de manera óptima, Bridge Baron es uno de los pocos sistemas de juego de papeles exitosos para utilizar planes complejos, jerárquicos (véase el Capítulo 11) que implican las ideas de alto nivel, comoel fi nessingand apretando, que son familiares para los jugadores de puente. El programa GIB (Ginsberg, 1999) ganó el campeonato 2000 del puente equipo bastante decisiva mediante el método de Monte Carlo. Desde entonces, otros programas ganadores han seguido el ejemplo de GIB. innovación importante del GIB está utilizando la generalización basada en la explicación para calcular y almacenar en caché las normas generales de juego óptimo en diversas clases estándar de situaciones en lugar de evaluar cada situación individual. Por ejemplo, en una situación en la que un jugador tiene las cartas AKQJ­4­3­2 del mismo palo y otro jugador tiene 10­9­8­7­6­5, hay 7 × 6 = 42 maneras de que el primer jugador puede conducir a partir de ese juego y el segundo jugador puede seguir. Pero GIB trata estas situaciones tan sólo dos: el primer jugador puede llevar una tarjeta de alta o baja una tarjeta; las cartas jugadas exactas no importan. Con esta optimización (y algunos otros), GIB puede resolver un 52 cartas, trato totalmente observable exactamente en aproximadamente un segundo. exactitud táctica del GIB compensa su incapacidad para razonar acerca de la información. Tuvo a 12 terminado en un campo de 35 en el concurso de la altura (que implica sólo jugar de la mano, no hacer una oferta) en el campeonato del mundo de los humanos 1998, superando con creces las expectativas de muchos expertos humanos. Hay varias razones por las GIB juega a nivel de expertos con la simulación de Monte Carlo, mientras que los programas Kriegspiel no lo hacen. En primer lugar, la evaluación del GIB de la versión completamente observable del juego es exacta, buscando en el árbol de juego completo, mientras que los programas se basan en métodos heurísticos Kriegspiel inexactas. Pero mucho más importante es el hecho de que en el puente, la mayor parte de la incertidumbre en la información parcialmente observable proviene de la aleatoriedad de la oferta, no desde el juego contradictorio del oponente. simulación de Monte Carlo se encarga de aleatoriedad bien, pero no siempre manejar estrategia bien, sobre todo cuando la estrategia consiste en el valor de la información. Scrabble: La mayoría de la gente piensa que la parte difícil de Scrabble es dar con buenas palabras, pero dada la del diccionario o fi cial, que resulta ser más fácil de programar un generador de movimiento para hallar el más anotador movimiento (Gordon, 1994). Eso no significa que el juego se resuelve, sin embargo: simplemente tomando el movimiento más alta calificación cada vez se traduce en un jugador bueno, pero no experto. El problema es que el Scrabble es a la vez parcialmente observable y estocástico: usted no sabe lo que las cartas del otro jugador o lo ha letras que atraerá siguiente. Así jugando Scrabble también combina las dificultades de backgammon y puente. Sin embargo, en 2006, el programa QUACKLE venció al ex campeón del mundo, David Boys, 3­2.

5.8 Enfoques alternativos:

Debido a que el cálculo de las decisiones óptimas en los juegos es intratable en la mayoría de los casos, todos los algoritmos deben hacer algunas suposiciones y aproximaciones. El enfoque estándar, basado en Minimax, las funciones de evaluación, y alfa­beta, es sólo una manera de hacer esto. Probablemente debido a que tiene

ha trabajado durante tanto tiempo, el enfoque estándar domina otros métodos en los torneos. Algunos

ha trabajado durante tanto tiempo, el enfoque estándar domina otros métodos en los torneos. Algunos creen que esto ha causado que juega al juego para convertirse en separarse de la corriente principal de la investigación en IA: el enfoque estándar ya no ofrece mucho espacio para una nueva comprensión de las cuestiones generales de la toma de decisiones. En esta sección, nos fijamos en las alternativas. En primer lugar, consideremos Minimax heurístico. Se selecciona un movimiento óptimo en un árbol de búsqueda dada la condición de que las evaluaciones de nodos hoja son exactamente correcto. En realidad, las evaluaciones son generalmente estimaciones de crudo del valor de una posición y se puede considerar que tienen grandes errores asociados con ellos. La Figura 5.14 muestra un árbol de juego de dos capas para el que Minimax sugiere tomar la rama de la derecha ya que el 100> 99. Esa es la decisión correcta si las evaluaciones son los correctos. Pero, por supuesto, la función de evaluación es sólo aproximada. Supongamos que la evaluación de cada nodo tiene un error que es independiente de otros nodos y se distribuye al azar con media cero y desviación estándar de σ. Luego, cuando σ = 5, la rama de la izquierda es en realidad mejor 71% del tiempo, y el 58% de las veces cuando σ = 2. La intuición detrás de esto es que la rama de la derecha tiene cuatro nodos que están cerca de 99; si un error en la evaluación de cualquiera de los cuatro hace que el deslizamiento rama de la derecha por debajo de 99, entonces la rama izquierda es mejor. En realidad, las circunstancias son en realidad peor que esto, porque el error en la función de evaluación isnot independiente. Si obtenemos un nodo mal, hay muchas posibilidades de que cerca de los nodos en el árbol también será incorrecta. El hecho de que el nodo etiquetado 99 tiene hermanos etiquetada 1000 sugiere que de hecho, podría tener un valor superior verdadera. Podemos utilizar una función de evaluación que devuelve una distribución de probabilidad sobre los posibles valores, pero es difícil de combinar estas distribuciones correctamente, porque no vamos a tener un buen modelo de las dependencias muy fuertes que existe entre los valores de los hermanos nodos A continuación, considerar el algoritmo de búsqueda que genera el árbol. El objetivo del algoritmo de un diseñador es especificar un cálculo que se ejecuta de forma rápida y produce un buen movimiento. El algoritmo alfa­beta está diseñada no sólo para seleccionar un buen movimiento, sino también para calcular los límites de los valores de todos los movimientos legales. Para ver por qué esta información adicional no es necesaria, considere una posición en la que sólo hay un movimiento legal. búsqueda alfa­beta todavía va a generar y evaluar un gran árbol de búsqueda, nos está diciendo que el único

movimiento es el mejor movimiento y asignándole un valor. Pero ya que tenemos que hacer el movimiento de todos modos, sabiendo el valor de la medida es inútil. Del mismo modo, si la hay, obviamente, buen movimiento y varios movimientos que son legales, pero conducen toa la pérdida rápida, nos no querría alfa­beta que perder el tiempo para determinar un valor preciso forthe solitario buen movimiento. Mejor simplemente hacer el cambio de forma rápida y ahorrar el tiempo para más adelante. Esto conduce a la idea de la utilidad de una expansión nodo. Un buen algoritmo de búsqueda deberá seleccionar expansiones nodo de gran utilidad, es decir, los que son propensos a conducir al descubrimiento de un significativamente mejor movimiento. Si no hay expansiones de nodo cuya utilidad es mayor que su coste (en términos de tiempo), entonces el algoritmo debe detener la búsqueda y hacer un movimiento. Observe que esto funciona no sólo para situaciones claras­favorito, pero también para el caso de movimientos simétricos, para el que no hay cantidad de búsqueda mostrará que un movimiento es mejor que otro. Este tipo de razonamiento acerca de lo que hacer cálculos se llama metareasoning (REA envenenamien­ sobre el razonamiento). Se aplica no sólo al juego jugando sino a cualquier tipo de razonamiento en absoluto. Todos los cálculos se realizan en el servicio de tratar de llegar a mejores decisiones, todos tienen costos, y todos tienen cierta probabilidad de resultar en una cierta mejora en la calidad de la decisión. Alfa­beta incorpora el tipo más simple de metareasoning, a saber, un teorema en el sentido de que ciertas ramas del árbol pueden ser ignorados sin pérdida. Es posible hacer mucho mejor. En el capítulo 16, vemos cómo estas ideas se pueden hacer precisa y aplicable. Por último, vamos a reexaminar la naturaleza de la propia búsqueda. Algoritmos para la búsqueda heurística y para jugar al juego generan secuencias de estados concretos, a partir del estado inicial y luego la aplicación de una función de evaluación. Claramente, esto no es cómo los seres humanos juegan juegos. En el ajedrez, a menudo se tiene aparticular objetivo en mente queen; porejemplo, atrapando de theopponent y puede utilizar este objetivo para generar selectivamente planes plausibles para lograrlo. Este tipo de razonamiento o de planificación dirigido a un objetivo a veces elimina por completo la búsqueda combinatoria. David Wilkins (1980) El paraíso es el único programa que ha usado el razonamiento dirigido a un objetivo con éxito en el ajedrez: era capaz de resolver algunos problemas de ajedrez que requieren una combinación de 18 movimientos. Hasta el momento no hay una buena comprensión de cómo combinar los dos tipos de algoritmos en un sistema deficiente robusto y EF, aunque Bridge Baron podría ser un paso en la dirección correcta. Un sistema totalmente integrado sería un logro significativo no sólo para la investigación Juego de papeles, sino también para la investigación en IA en general, ya que sería una buena base para un agente inteligente general.