En una entrevista que duró 2.5 horas, Brown habló en detalle sobre cómo hace unos años logró crear un software que venció a los regulares más fuertes sin oportunidad.
— Has liderado tres increíbles proyectos de IA: Libratus en el poker heads-up, Pluribus en 6-max y recientemente cambiaste al programa Cicero, que lucha contra las personas en igualdad de condiciones en el popular juego de mesa Diplomacy. Hoy me gustaría hablar sobre el poker. Dígale a los oyentes comunes, ¿qué tipo de juego es este: Texas Hold'em sin límite?
— Esta es la forma de poker más popular, se juega en todos los casinos y en muchas películas populares. La característica principal es que el propio jugador elige el tamaño de las apuestas. Una de las estrategias clave en el poker es poner a tu oponente en una posición difícil, si siempre tienes éxito, entonces eres un buen jugador.
— Cuando creas tus proyectos, ¿qué es lo que te atrae en primer lugar? ¿La belleza del poker o el deseo de resolver problemas globales con la ayuda de la IA?
— La belleza del juego. Yo mismo empecé a jugar al poker cuando estaba en la escuela. Rápidamente me di cuenta de que, en teoría, existe una estrategia correcta, siguiendo la cual puedes vencer a todos. Ya a los 16 años me sorprendió la diversidad del poker y comencé a trabajar en la IA mucho más tarde.
— ¿Ya entendiste entonces que el poker se puede resolver como el ajedrez o las damas? ¿Están resueltos?
— Sí, es imposible vencer a la IA en estos juegos. El poker también se puede resolver. Se basa en el equilibrio de Nash. En cualquier juego finito de suma cero, existe una estrategia óptima. Si uno de los jugadores juega en él, entonces, por expectativa, no puede perder, independientemente de las acciones del oponente. Para el poker todo esto también es cierto, pero solo para heads-up, en 6-max todo es más complicado.
— ¿A qué te refieres cuando dices “por expectativa”?
— Hay una gran varianza en el poker. Incluso una estrategia perfecta no garantiza que ganarás todas las manos. Pero la estrategia óptima garantiza que jugarás al menos a cero a la distancia.
— ¿Cómo se calcula este saldo?
— Hay varias formas. Utilizamos un algoritmo de minimización de arrepentimiento contrafactual que se basa en el autoaprendizaje. Es decir, dos copias de AI comienzan a jugar entre sí de forma completamente aleatoria, pero aprenden durante el juego. Al final del partido, analizan sus acciones y realizan una "investigación" sobre cómo otras decisiones afectarían el resultado, por ejemplo, subir en lugar de pagar. La próxima vez eligen una acción más rentable. A larga distancia, tal juego llega a coincidir con el equilibrio de Nash. Esto funciona tanto en el ajedrez como en el poker.
— ¿Qué es más difícil: el ajedrez, el poker o tal vez en general?
— Yo diría el poker. En primer lugar, por la información incompleta. Esto lleva al hecho de que tenemos que pensar no sólo en cómo jugar exactamente con nuestras cartas, sino también con qué frecuencia elegir esa línea. El ejemplo más simple es el juego Piedra, Papel o Tijera. No puedes mostrar la "piedra" todo el tiempo, el oponente lo notará de inmediato. Igual de importante, el valor de nuestras acciones depende directamente de la frecuencia de su aplicación. El equilibrio es uno de los elementos más importantes del poker. En ajedrez, no importa si juegas el Gambito de Dama en todos los juegos o sólo en el 10%, la expectativa no cambiará de ninguna manera.
— Si jugamos con un oponente todo el tiempo, en cada mano obtenemos nueva información. ¿Qué importancia tiene esto para la IA?
— Este enfoque en el poker realmente existe. Pero para los bots no importa. Juegan como si el oponente ya supiera su estrategia. La esencia del juego óptimo es que puedes jugar decenas de miles de manos, analizar todo a fondo, pero aún así es imposible vencerlo. Este es el equilibrio ideal o, en otras palabras, el equilibrio de Nash. Los mejores jugadores del mundo también suelen jugar con Nash, pero pueden desviarse cuando notan errores en sus oponentes.
— ¿Quién es el mejor jugador de todos los tiempos y por qué es Phil Hellmuth? Su juego está lejos de ser óptimo, pero aún así vence a todos. ¿Entonces su juego caótico hace que su estrategia sea impredecible?
— En primer lugar, es importante entender que el equilibrio de Nash no tiene nada que ver con la previsibilidad. Su esencia es simplemente impredecible. Admito plenamente que Phil Hellmuth es un jugador muy exitoso. Pero su imprevisibilidad no tiene nada que ver con eso. Supongo que su fuerza es la habilidad de usar las debilidades de sus oponentes. La comunidad de poker ha estado discutiendo durante años sobre qué es mejor: un juego GTO o un juego explotativo. Y hasta 2017, el exploit tuvo más adeptos, hasta que nuestro Libratus jugó contra los especialistas de heads-up más fuertes. El bot no trató de adaptarse, no jugó juegos mentales, simplemente trató de acercarse lo más posible a Nash en cada acción. Y como resultado, destrozó a sus oponentes: a una distancia de 120.000 manos, el bot ganó alrededor de $2 millones de personas jugando en ciegas de $100/$200.
— Cuéntanos más sobre esta partida.
— Cuando estaba en la escuela de posgrado, varios grupos trabajaban en IA de poker a la vez, y al final de cada año organizamos un campeonato de poker entre bots. Nuestro bot se convirtió en campeón en 2014 y 2016, y luego formó la base de Libratus. En 2017, desafiamos a los mejores jugadores de heads-up del mundo a jugar 120.000 manos. Asignamos $200,000 en premios para el partido, que las personas dividirían entre ellas según el resultado.
— En 2014-16, ¿pensaste siquiera que una computadora podría vencer a una persona en el poker?
— El primer partido de este tipo tuvo lugar en 2015, y luego el bot sufrió una derrota bastante dura. Pero muchas cosas han cambiado en dos años. El primer bot jugaba según una estrategia prediseñada destinada a resolver el poker. Durante el partido, simplemente recurrió a su amplia base y buscó una solución para cada situación específica. Y el bot de 2017 en tiempo real intentó construir una estrategia que funciona mejor que los algoritmos integrados en ella.
Sin embargo, el partido de 2015 me dio mucho que pensar. Me di cuenta de que las personas y los bots tienen un enfoque completamente diferente. Nuestro bot ya había jugado una cierta distancia consigo mismo. En una partida humana, instantáneamente encontró soluciones contra un humano, según su experiencia previa. Así es como siempre sucedió. Y los profesionales en algunas situaciones podrían pensar durante 5 minutos en el river, eligiendo entre foldear o igualar. Se me ocurrió la idea de que esto es exactamente lo que le falta a nuestro bot. Analizamos el primer partido y descubrimos que fueron estas situaciones las que tuvieron un gran impacto en el resultado final.
— ¿Estás hablando de la duración de la reflexión?
— Sí, pero no se trata de tiempos. El problema del bot era que siempre actuaba instantáneamente y no intentaba encontrar una solución más rentable en comparación con lo que se le ponía antes del juego. Y justo durante la mano, la gente usa su habilidad para reconstruir, pensar y planificar. A menudo, esto ayuda a encontrar una acción más rentable que la sugerida inicialmente por la intuición. Una red neuronal produce un resultado en milisegundos, pero si hace que se tenga en cuenta incluso datos adicionales insignificantes, el resultado mejorará muchas veces. Si imaginamos la estrategia integrada en el bot como un análogo de una red neuronal, incluso el más mínimo estudio de información adicional la hará miles de veces más grande. Esto dio un impulso increíble a nuestros desarrollos.
— ¿Puedes explicar con los dedos en qué consisten exactamente estos estudios?
— En Hold'em, a los jugadores se les reparten dos cartas de mano a cada uno, es decir, 1.326 combinaciones posibles. En realidad alrededor de 1.000, porque puedes ignorar las cartas abiertas. El bot comienza a clasificar todas las opciones posibles y busca una estrategia que funcione mejor que la que se le puso originalmente. Es importante que comience a realizar estos estudios sólo en el turn, ya que jugó las dos primeras calles instantáneamente de acuerdo con una estrategia precalculada.
— ¿Hubo alguna característica en la estrategia de Libratus que le llamó la atención de inmediato?
— Las apuestas que hace una persona suelen depender del tamaño del bote. Y para Libratus no tenía ninguna importancia, jugaba absolutamente cualquier tamaño. En algún momento, de repente comenzó a hacer overbets enormes de 10 botes. Antes del partido, no pensamos en esta opción en absoluto, por lo que nos preocupamos un poco. En la práctica, nadie ha usado una estrategia de este tipo antes, y nosotros mismos no sabíamos qué esperar, ¿y si los regulares pudieran usarla? Pero casi de inmediato quedó claro que funciona muy bien, ya que constantemente lleva al oponente a una posición difícil. Pero el bot hizo esto únicamente porque en una situación particular, tal apuesta le pareció la más rentable, y el hecho de que la gente no supiera cómo contrarrestar esto resultó ser una ventaja agradable.
— ¿Ha hablado alguna vez de sus desarrollos, por ejemplo, con Daniel Negreanu?
— Sí, me invitaron a la Isla de Man a la oficina de PokerStars cuando aún trabajaba con ellos. Asistió a la cena general, dijo que todo esto es muy interesante y puede servir para trabajar en el juego.
— ¿Entonces no estaba asustado?
— Al revés. Incluso mostró interés en el partido contra el bot, alegando que tenía buenas posibilidades de ganar. Fue hace unos años, cuando no todos entendían que en heads-up, una persona no tiene ninguna posibilidad contra la IA. Creo que ahora se ha vuelto obvio para todos.
— ¿Y cuál es la situación en 6-max?
— Los bots modernos también vencerán a las personas allí. Solo podemos discutir si esto es cierto para todas las variedades de poker. Estoy seguro de que con las ganas y los recursos suficientes para cualquier juego, puedes escribir un bot que vencerá a una persona sin ningún problema. Pero sólo nos estamos enfocando en el más popular: NLHE.
— ¿Alguna vez te has preguntado cuáles son las principales diferencias en la forma en que funcionan el cerebro humano y la IA?
— Por supuesto, lo pensé, esta es una pregunta muy importante. Los cálculos de AlphaGo y otros bots conocidos se basan en el método Monte Carlo. Se destacó en juegos con información completa: ajedrez y go. Pero en el poker, es completamente inadecuado, porque no entiende el concepto de información oculta, no sabe qué es el equilibrio, con qué frecuencia se debe retirar o igualar con ciertas manos. El cerebro humano es capaz de hacer un plan superficial para cualquier juego. Esto es muy deficiente en la inteligencia artificial: la capacidad de planificar y razonar en general.
— En el pasado, a muchos les parecía que el factor humano es tan importante en el poker que la computadora nunca ganaría. ¿Qué sentiste en el momento en que Libratus finalmente venció a la gente?
— Todo el proyecto fue muy estresante para mí. Antes del comienzo del partido, durante varios años sin días libres, solo me dedicaba a él. Durante la preparación, no teníamos ni idea del nivel que se necesitaría para vencer a un hombre. Libratus jugó con versiones anteriores de sí mismo, pero eso sólo nos dio una idea general de que nos estábamos moviendo en la dirección correcta. No sabíamos qué máximo necesitábamos, así que lanzamos todos los recursos al desarrollo. Teníamos el poder de miles de computadoras a nuestra disposición. Ahora bien, esto no sorprende a nadie, pero para un estudiante de posgrado en 2016, todo lo que sucedió fue muy impresionante. El primer día del enfrentamiento, estaba extremadamente nervioso. Antes del comienzo, calculé que las posibilidades de ganar eran aproximadamente iguales. Comprendí que en el papel el bot era más fuerte y debería ganar, pero tenía miedo de que los profesionales notaran algunas debilidades y pudieran aprovecharlas. Eso es exactamente lo que sucedió en nuestro primer partido de 2015. Su primera mitad transcurrió sin una ventaja clara, pero luego los jugadores simplemente destrozaron al bot porque notaron sus deficiencias y pudieron usarlas de manera efectiva. Las situaciones más problemáticas fueron cuando los jugadores apostaban all-in. Por ejemplo, para un bot no había diferencia entre los colores K-high y A-high, los jugaba exactamente igual. A veces no juega ningún papel, pero en algunas situaciones puede ser muy costoso y los profesionales identifican fácilmente esos momentos.
— ¿Cómo se comportaron los jugadores durante el segundo partido?
— Como dije, su premio en metálico dependía directamente del resultado. Tenía la esperanza de que no unirían sus fuerzas para encontrar las fallas del bot. Pero los regulares dejaron en claro de inmediato que su objetivo principal era vencer al bot. Analizaron las manos juntos. Al final de cada día, les enviamos el historial completo con cartas abiertas. No sé por qué decidí hacerlo, en el poker esta es una información invaluable. Pero ahora incluso me alegro, porque al final ganamos. El partido duró 20 días. El bot ganó las primeras tres sesiones seguidas, pero aún así continué estimando las probabilidades alrededor de 50/50. Luego, la gente recuperó un poco y creyó que nuevamente notó algunas fallas en el juego del bot que en realidad no eran. Al octavo día, quedó claro que no tenían ninguna posibilidad.
— ¿Cómo te tomaste la victoria?
— Dediqué 5 años de mi vida a este proyecto, por lo que la primera reacción fue de una gran satisfacción de que mi trabajo fuera exitoso.
— Cuéntanos sobre el bot para 6-max.
— Como dije, si en un juego de suma cero y uno de los participantes actúa "según Nash", al menos no perderá por expectativa. No importa en absoluto lo que haga el oponente. Todo esto es cierto para heads-up. Hubo un largo y acalorado debate en la comunidad científica y de poker sobre si esto funcionaría en 6-max. Inmediatamente estuve seguro de que lo sería, porque la estrategia es demasiado efectiva y la cantidad de jugadores no tendrá un gran impacto.
Hicimos la transición con éxito a 6-max cuando limitamos el trabajo de investigación del bot. Libratus calculaba de antemano todos los movimientos posibles en las siguientes calles hasta el final. En 6-max, esto no es posible, ya que el juego es mucho más variado. Por lo tanto, limitamos el bot a sólo un par de movimientos por delante y resultó ser muy efectivo. El poker 6-max sigue siendo un juego individual en el que ninguno de los jugadores coopera entre sí. Las reglas generalmente lo prohíben. Esto nos permitió aplicar con éxito el equilibrio de Nash simplificado en la práctica. Además, en teoría aún no se ha demostrado que debería funcionar en 6-max. Para algunos juegos, ya existe evidencia científica de que el equilibrio de Nash aproximado funciona muy bien fuera de un juego uno contra uno. Esto aún no se aplica al poker 6-max, pero ya es obvio para mí que funciona al menos no mal.
— Háblanos de las principales diferencias entre Pluribus y Libratus.
— El Pluribus era mucho más barato. Si evaluamos todos los recursos que necesitábamos para crear el bot, entonces Libratus costó alrededor de $100,000 y Pluribus menos de $150. Está claro que cada año las computadoras se vuelven más baratas, pero aún así la diferencia no es tan grande. La razón principal es un cambio en el algoritmo. La propia limitación del trabajo de investigación del bot, del que ya he hablado.
— ¿Tal restricción también es posible para Libratus?
— Por supuesto. Primero, probamos la eficiencia del trabajo en un bot de heads-up. Si el Libratus anterior necesitaba el poder de miles de computadoras, entonces el nuevo algoritmo hizo posible ejecutarlo en cualquier computadora portátil.
— Como alguien que ama el poker, ¿a quién consideras el mejor jugador de todos los tiempos? Por cierto, con la ayuda de la IA, ¿es posible evaluar el nivel de juego de una persona? ¿Existe algo similar a la calificación Elo en el poker?
— Es posible en teoría, pero poco probable en la práctica. Todo debido a la gran variación. Incluso un mal jugador puede terminar el año con un resultado positivo, y el mejor reg jugará la misma distancia con un resultado negativo. Pero en el poker moderno, así como en el ajedrez, ahora es imposible imaginar trabajar en un juego sin software.
— Me impresionó lo hábilmente que ignoraste la pregunta sobre el mejor jugador de todos los tiempos.
— Es una pregunta difícil. En ajedrez, no podemos comparar a Magnus Carlsen y Garry Kasparov. El juego ha evolucionado demasiado. En el poker, los jugadores de poker modernos son muchas veces más hábiles que incluso aquellos que jugaban hace solo 5 o 10 años. Para ser franco, las casi estrellas de ESPN del boom del poker son mediocres.
Al menos desde el punto de vista técnico, admito que todavía son fuertes en la lectura de oponentes. Con eso en mente, nombraré a Daniel Negreanu. Es uno de los jugadores más fuertes del pasado, trata de mantenerse al día y sigue el desarrollo de la IA, trabaja mucho en la teoría. Casi todos los jugadores de su generación se han dado por vencido hace mucho tiempo y no miran en esa dirección en absoluto. Por eso, tengo mucho respeto por Daniel.