AI fuma a 5 campeones de póquer a la vez en Hold'em sin límite con 'consistencia implacable' – TechCrunch

Las máquinas han demostrado su superioridad en juegos uno contra uno, como el ajedrez y el juego, e incluso el póker, pero en las complejas versiones multijugador del juego de cartas, los humanos han conservado su ventaja … hasta ahora. Una evolución del último agente de AI a los profesionales del póker de flummox de forma individual ahora los está derrotando decisivamente en un juego de 6 personas al estilo de campeonato.

Como se documenta en un artículo publicado en la revista Science , la colaboración de CMU / Facebook que llaman Pluribus supera a cinco jugadores de póker profesionales en el mismo juego, o un profesional enfrentó a cinco copias independientes de sí mismo. Es un gran avance en la capacidad de las máquinas y, sorprendentemente, también es mucho más eficiente que los agentes anteriores.

El póquer uno a uno es un juego extraño, y no simple, pero su naturaleza de suma cero (lo que pierdas, el otro jugador lo obtiene) lo hace susceptible a ciertas estrategias en las que la computadora puede calcular lo suficiente Puede ponerse en ventaja. Pero agrega cuatro jugadores más a la mezcla y las cosas se vuelven realmente complejas, muy rápido.

Con seis jugadores, las posibilidades de manos, apuestas y posibles resultados son tan numerosas que es imposible rendir cuentas de todos ellos, especialmente en un minuto o menos. Sería como tratar de documentar exhaustivamente cada grano de arena en una playa entre olas.

Sin embargo, más de 10,000 manos jugadas con campeones, Pluribus logró ganar dinero a un ritmo constante, sin exponer debilidades o hábitos que sus oponentes pudieran aprovechar. Cual es el secreto Aleatoriedad consistente.

Incluso las computadoras se arrepienten

Pluribus fue entrenado, como muchos agentes de inteligencia artificial de juego en estos días, no estudiando cómo juegan los humanos sino jugando contra sí mismos. Al principio, esto es probablemente como mirar a los niños, o para mí, jugar al póquer: errores constantes, pero al menos la IA y los niños aprenden de ellos.

El programa de entrenamiento usó algo que se llama minimización de arrepentimiento contrafactual de Monte Carlo . Suena como cuando desayuna whisky después de perder su camisa en el casino y, en cierto modo, es un estilo de aprendizaje automático.

La minimización de arrepentimiento solo significa que cuando el sistema terminaría una mano (en contra de sí mismo, recuerde), luego jugaría esa mano de nuevo de diferentes maneras, explorando lo que podría haber ocurrido si se verificara aquí en lugar de elevado, doblado en lugar de llamado pronto. (Dado que en realidad no sucedió, es contrafactual ).

Un árbol de Monte Carlo es una forma de organizar y evaluar muchas posibilidades, similar a escalar un árbol de rama en rama y observar la calidad de cada hoja que encuentre, y luego escoger la mejor una vez que crea que ya ha subido lo suficiente.

Si lo hace antes de tiempo (esto se hace en el ajedrez, por ejemplo) está buscando el mejor movimiento para elegir. Pero si lo combinas con la función de arrepentimiento, estás buscando en un catálogo de posibles formas en que podría haber ido el juego y observando cuál habría sido el mejor resultado.

Entonces, la minimización del arrepentimiento contrafactual de Monte Carlo es solo una forma de investigar sistemáticamente lo que podría haber ocurrido si la computadora hubiera actuado de manera diferente, y ajustar su modelo de cómo jugar en consecuencia.

traverserj

El juego original se jugó como se ve en la izquierda, con una pérdida. Pero el motor explora otras vías donde podría haberlo hecho mejor.

Por supuesto, la cantidad de juegos es casi infinita si quieres considerar qué pasaría si apostaras $ 101 en lugar de $ 100, o hubieras ganado esa gran mano si hubieras tenido un ocho kicker en lugar de un siete. Ahí también se encuentra el arrepentimiento infinito, el tipo que lo mantiene en la cama en su habitación de hotel hasta el almuerzo anterior.

La verdad es que estos cambios menores son tan importantes que la posibilidad básicamente se puede ignorar por completo. Realmente nunca importará que apuestes un dinero extra, por lo que cualquier apuesta dentro de, digamos, 70 y 130 puede ser considerada exactamente igual por la computadora. Lo mismo con las tarjetas: si el gato es un corazón o una pala no importa, excepto en situaciones muy específicas (y generalmente obvias), el 99,999% de las veces las manos pueden considerarse equivalentes.

Esta «abstracción» de las secuencias de juego y el «agrupamiento» de posibilidades reduce enormemente las posibilidades que Pluribus tiene que considerar. También ayuda a mantener baja la carga de cálculo; Pluribus recibió capacitación en un bastidor de servidores de 64 núcleos relativamente normal durante aproximadamente una semana, mientras que otros modelos podrían tardar años de procesador en clústeres de alta potencia. Incluso se ejecuta en una plataforma (es decir, robusta) con dos CPU y 128 gigas de RAM.

Al azar como un zorro

El entrenamiento produce lo que el equipo llama un «plano» sobre cómo jugar que es fundamentalmente fuerte y que probablemente le ganaría a muchos jugadores. Pero una debilidad de los modelos de IA es que desarrollan tendencias que pueden ser detectadas y explotadas.

En la reseña de Pluribus realizada en Facebook, proporciona el ejemplo de dos computadoras que tocan tijeras de papel de piedra. Uno escoge al azar mientras que el otro siempre escoge rock. En teoría, ambos ganarían la misma cantidad de juegos. Pero si la computadora probara la estrategia all-rock en un humano, comenzaría a perder con rapidez y nunca se detendría.

Como un simple ejemplo en el póker, tal vez una serie particular de apuestas siempre hace que la computadora funcione sin importar su mano. Si un jugador puede detectar esa serie, puede llevar la computadora a la ciudad cuando lo desee. Encontrar y prevenir rutas como estas es importante para crear un agente de juego que pueda vencer a los seres humanos ingeniosos y observadores.

Para hacer esto, Pluribus hace un par de cosas. Primero, ha modificado las versiones de su plan para poner en juego si el juego se inclina hacia el plegamiento, las llamadas o las subidas. Diferentes estrategias para diferentes juegos significan que es menos predecible, y puede cambiar en un minuto si los patrones de apuesta cambian y la mano pasa de ser una llamada a una farolera.

También se involucra en una búsqueda introspectiva corta pero exhaustiva que analiza cómo se jugaría si tuviera todas las demás manos, desde una gran nada hasta una escalera de color, y cómo apostaría. Luego elige su apuesta en el contexto de todos aquellos, con cuidado de hacerlo de tal manera que no apunte a nadie en particular. Dada la misma mano y la misma jugada de nuevo, Pluribus no escogería la misma apuesta, sino que la variaría para seguir siendo impredecible.

Estas estrategias contribuyen a la «aleatoriedad constante» a la que aludí anteriormente, y que formaban parte de la capacidad del modelo para poner de manera lenta pero confiable a algunos de los mejores jugadores del mundo.

El lamento humano

Hay demasiadas manos para señalar una o diez en particular que indican el poder que Pluribus estaba ejerciendo en el juego. El póquer es un juego de habilidad, suerte y determinación, y uno donde los ganadores emergen después de solo docenas o cientos de manos.

Y aquí hay que decir que la configuración experimental no refleja completamente un juego de póquer ordinario para 6 personas. A diferencia de un juego real, los conteos de fichas no se mantienen como un total continuo: para cada mano, a cada jugador se le dieron 10,000 fichas para usarlas como quisieran, y ganar o perder también recibieron 10,000 en la siguiente mano.

interface

La interfaz utilizada para jugar al póquer con Pluribus. ¡Lujoso!

Obviamente, esto limita bastante las posibles estrategias a largo plazo y, de hecho, «el robot no estaba buscando puntos débiles en sus oponentes que pudiera explotar», dijo el científico de la investigación de IA Noam Brown. Verdaderamente, Pluribus vivía en el momento como pocos humanos pueden hacerlo.

Pero simplemente porque no estaba basando su juego en observaciones a largo plazo de los hábitos o estilos individuales de los oponentes, no significa que su estrategia fuera superficial. Por el contrario, podría decirse que es más impresionante, y presenta el juego desde una perspectiva diferente, que existe una estrategia ganadora que no se basa en señales de comportamiento o en la explotación de las debilidades individuales.

Sin embargo, los profesionales a los que el implacable Pluribus les había robado el dinero para el almuerzo eran buenos deportes. Elogiaron el juego de alto nivel del sistema, su validación de las técnicas existentes y el uso inventivo de otras nuevas. Aquí hay una selección de lamentos de los humanos caídos:

Fui uno de los primeros jugadores en probar el bot, así que pude ver sus versiones anteriores. El bot pasó de ser un jugador mediocre vencible a competir con los mejores jugadores del mundo en unas pocas semanas. Su mayor fortaleza es su habilidad para usar estrategias mixtas. Eso es lo mismo que los humanos tratan de hacer. Es una cuestión de ejecución para los humanos: hacer esto de una manera perfectamente aleatoria y hacerlo de manera consistente. También fue satisfactorio ver que muchas de las estrategias que emplea el bot son cosas que ya hacemos en el póker al más alto nivel. Tener sus estrategias más o menos confirmadas como correctas por una supercomputadora es una buena sensación. -Darren Elias

Fue increíblemente fascinante jugar contra el bot de póquer y ver algunas de las estrategias que eligió. Hubo varias jugadas que los humanos simplemente no están haciendo en absoluto, especialmente en relación con su tamaño de apuesta. -Michael ‘Gags’ Gagliano

Cada vez que juego el bot, siento que tomo algo nuevo para incorporarlo a mi juego. Como seres humanos, creo que tendemos a simplificar el juego para nosotros mismos, haciendo que las estrategias sean más fáciles de adoptar y recordar. El bot no toma ninguno de estos atajos y tiene un árbol de juego inmensamente complicado / equilibrado para cada decisión. -Jimmy Chou

En un juego que, con mayor frecuencia, lo recompensará cuando muestre disciplina mental, enfoque y consistencia, y ciertamente lo castigará cuando no tenga ninguno de los tres, compitiendo durante horas y horas contra un robot de IA que obviamente no tener que preocuparse por estas deficiencias es una tarea agotadora. Los aspectos técnicos y las profundas complejidades de la habilidad de póker del bot de la IA fueron notables, pero lo que subestimé fue su fuerza más transparente, su consistencia implacable. -Sean Ruane

Vencer a los humanos en el póker es solo el comienzo. Como buen jugador, Pluribus es, más importante aún, una demostración de que un agente de IA puede lograr un rendimiento sobrehumano en algo tan complicado como el póker de 6 jugadores.

«Muchas interacciones del mundo real, como los mercados financieros, las subastas y la navegación de tráfico, pueden modelarse de manera similar como interacciones de múltiples agentes con comunicación y colusión limitadas entre los participantes», escribe Facebook en su blog.

Sí, y la guerra.

Read More

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.