Polaris 2.0 Derrota Equipa Stoxpoker no Confronto Homem-Máquina
Na sequência do último verão, depois da derrota contra humanos no primeiro Campeonato Poker Homem-Máquina organizado em Vancouver, Canadá, a Universidade de Alberta Computer Poker Research Group (CPRG) teve um ano para melhorar a sua colecção de programas de poker, conhecido por Polaris, para a desforra deste ano. O seu esforço foi recompensado, já que o Polaris 2.0 derrotou uma equipa de humanos numa série de confrontos de limit duplicados.
A competição teve lugar no Rio All-Suite Casino Hotel em Las Vegas, Nevada, durante o Gaming Life Expo no WSOP, com cada confronto a ter lugar em cada dia entre 3 e 6 de Julho. A equipa de humanos era composta por vários membros do site de coaching Stoxpoker. Ao contrário do verão passado onde os humanos tinham apenas dois competidores, Phil Laak e Ali Eslami, desta vez foram sete jogadores diferentes que participaram na competição incluindo, Nick Grudzien, Kyle Hendon, Rich McRoberts, Victor Acosta, Mark Newhouse, Ijay Palansky e Matt Hawrilenko.
Da mesma forma do que no confronto anterior, a competição consistiu de quatro sessões na qual dois humanos jogavam em simultâneo mas separadamente mãos em duplicado de Limit Hold'em contra o computador, desta vez com blinds de $500/$1,000 e $1,000/$2,000. Seguindo as regras do poker em duplicado, as cartas que os humanos recebiam era idênticas ás que eram dadas ao computador e vice-versa, com as cartas comunitárias a serem também iguais em cada mão jogada. O formato minimiza a sorte do sorteio, já que no final tanto os humanos como o computador recebem as mesmas cartas e enfrentam as mesmas situações.
No final de cada jogo, o total de cada jogo efectuado em simultâneo depois de 500 mãos deve ser somado para determinar o vencedor da sessão. Ficou decidido que se o total representasse menos de 25 small bets de diferença (ou seja, $25,000) o encontro seria considerado empatado, enquanto que uma diferença maior daria a vitória a uma das equipas.
No primeiro encontro, entraram Nick Grudzien e Kyle Hendon contra o Polaris 2.0. Hendon terminou as 500 mãos na frente com $37,000 mas Grudzien terminou a perder $42,000. Como a diferença total era de apenas $5,000 ou apenas 5 small bets, o jogo foi considerado empatado.
Os humanos ganharam o segundo jogo, graças ao esforço de Rich MacRoberts que terminou com $89,500 conta o computador. O seu parceiro, Victor Acosta acabou por perder $39,500. O lucro dos humanos foi de $50,000 que era mais do que suficiente para assegurarem uma vitória.
O Polaris 2.0 conseguiu recuperar ganhando o terceiro e quarto jogo. No terceiro, Mark Newhouse conseguiu acabar positivo $251,500, de longe o mais bem sucedido na equipa de humanos. No entanto, o seu parceiro IJay Palansky, terminou negativo $307,500 o que dava ao computador uma vantagem de $56,000.
A quarta sessão viu uma nova vitória do Polaris, ao conseguir terminar positivo $60,500 contra Mark Newhouse e $29,000 contra Palansky. No final o Polaris ficava com duas vitórias, uma derrota e um empate nos jogos realizados no Gaming Life Expo. Dois outros jogos que tiveram lugar noutro lugar contra membros do Stoxpoker foram também tidos em conta; os humanos ganharam um e perderam outro. Assim, nas contas finais o Polaris ganhou 3, perdeu 2, e empatou 1.
De acordo com o professor Michael Bowling, um dos supervisores dos alunos que têm desenvolvido o Polaris, grandes melhorias foram feitas desde o verão passado tornando mais difícil aos humanos explorarem fraquezas.
Mais significativo, como Bowling explica, os programadores conseguiram adicionar um elemento de aprendizagem, onde "o Polaris identifica a estratégia que o humano está a impor e modifica para a sua própria estratégia de forma a combater". Isto significa que o computador não aplica as mesmas tácticas contra todos os humanos, mas segue diferentes estratégias contra cada um deles, tornando mais difícil aos humanos de se ajustar durante a mudança de estratégia da parte do computador numa determinada sessão e/ou compara notas uns com os outros entre sessões e como o Polaris 2.0 jogou.
O Polaris 2.0 também aprendeu com os seus erros, aplicando um algoritmo com o nome "counter-factual-regret" onde é capaz de memorizar a forma de jogar dos humanos durante as mãos que perdeu, e ajustar o seu próprio jogo quando circunstâncias parecidas surgem.
O CPRG diz que pretende ir além dos jogos de limit heads-up para jogos mais complicados. O grupo pretende também aplicar as suas descobertas sobre inteligência artificial a áreas diferentes do poker.