AlphaZero explora as diferentes variantes do xadrez
Em um novo artigo da DeepMind, desta vez co-escrito pelo 14º campeão mundial de xadrez, Vladimir Kramnik, o AlphaZero, uma engine de autoaprendizagem, é usado para explorar o design de novas variantes do xadrez, com diferentes conjuntos de regras.
O artigo é intitulado Avaliando o equilíbrio do jogo com AlphaZero: Explorando regras alternativas no xadrez e foi escrito por Nenad Tomasev, Ulrich Paquet e Demis Hassabis, da Deepmind, junto com Kramnik. O grande mestre russo tem trabalhado com a DeepMind desde o ano passado, quando publicamos seu artigo sobre o Xadrez sem roque.
Neste novo artigo (aqui em PDF), o Xadrez sem roque é uma das nove variantes do xadrez que foram examinadas. O AlphaZero funcionou como uma ferramenta para simular décadas de confrontos humanos em questão de horas, o que tornou possível ver como seriam as partidas entre jogadores fortes nessas variantes.
O design do jogo, em geral, é complicado. Criar uma nova variante do xadrez que realmente funcione também não é fácil. Os pesquisadores disseram: “Desenhar um conjunto de regras atraente e coerente não é trivial, devido à dificuldade de avaliar as consequências de modificações específicas na dinâmica do jogo e a sua aceitação pelo público em geral".
O Mestre Internacional Danny Rensch revisou o documento em detalhes durante o período de embargo, no qual o Chess.com teve acesso privilegiado aos jogos. Ele aproveitou a oportunidade para criar esta breve visão geral (e vários outros vídeos que estão por vir!) dos pontos-chave do relatório, bem como seu próprio "top 10" das variantes experimentadas pelo AlphaZero:
Usando o sistema de aprendizagem por reforço do AlphaZero, os pesquisadores queriam mostrar o potencial do AlphaZero para ser usado "como uma ferramenta para a exploração criativa e design de novas variantes do xadrez".
As nove variantes que foram testadas pelo AlphaZero
Variante | Mudança de regra principal | Mudança de regra secundária |
Sem roque | Roque não é permitido durante toda a partida |
- |
Sem roque (10) | Roque não é permitido durante os 10 primeiros lances (20 turnos) 1 turno = meio lance |
- |
Peão-uma-casa | Peões só podem avançar uma casa |
- |
Afogamento=vitória | O afogamento é uma vitória ao invés de um empate |
- |
Torpedo | Peões podem avançar 1 ou 2 casas em todos os lances. Consequentemente, o en passant pode acontecer em qualquer lugar do tabuleiro |
- |
Semi-torpedo | Peões podem avançar 2 casas se estiverem na 2ª ou 3ª fileira |
- |
Peão-atrás | Peões podem recuar uma casa, mas somente até a 2ª/7ª fileira das Brancas/Negras |
Lances de peões não contam para a regra dos 50 lances |
Peão-lateral | Peões também podem mover uma casa para o lado. Capturas continuam igual, na diagonal |
Lances de peões para o lado não contam para a regra dos 50 lances |
Autocaptura | É possível capturar as suas próprias peças |
- |
Para cada variante, o AlphaZero foi treinado do zero e, em seguida, jogou um grande número de partidas contra si mesmo: 10.000 partidas com um segundo por lance, e outras 1.000 com um minuto por lance. Com base nessas partidas, foi realizada uma avaliação quantitativa e qualitativa.
Avaliação quantitativa
Para cada variante, foi determinada a estimativa do percentual de empate, bem como a vantagem no primeiro lance, expressa como a pontuação esperada para as Brancas. Como esperado, isso variou dependendo do ritmo de jogo. Além disso, foi revelado que mais empates foram produzidos em partidas de um minuto por lance em comparação com as de um segundo por lance.
"Isso parece indicar que a posição inicial pode ser teoricamente empatada nessas variantes do xadrez, como no xadrez clássico, e que algumas das variantes são mais complexas do que outras, envolvendo mais cálculos e padrões mais elaborados", afirmam os pesquisadores.
Variante | Treinamento | 1 seg | 1 min |
Clássico | 54.10% | 51.80% | 50.80% |
Sem roque | 55.70% | 53.30% | 51.30% |
Sem roque (10) | 52.50% | 51.00% | 50.40% |
Peão-uma-casa | 53.50% | 51.60% | 50.30% |
Afogamento=vitória | 54.90% | 53.00% | 51.10% |
Torpedo | 57.00% | 56.80% | 54.00% |
Semi-torpedo | 54.70% | 53.60% | 50.90% |
Peão-atrás | 53.00% | 51.10% | 50.10% |
Peão-lateral | 54.80% | 52.80% | 50.50% |
Autocaptura | 54.20% | 52.60% | 50.80% |
Este estudo também ilustra como a mesma abertura pode levar a resultados muito diferentes dependendo das variantes utilizadas. Isso foi feito forçando o AlphaZero a jogar Defesa Holandesa, Defesa Chigorin, Defesa Alekhine e Gambito do Rei 1000 vezes em todas as variantes, exceto Peão-uma-casa.
Para as variantes que possuem opções de movimentos adicionais além das opções clássicas (como a Autocaptura), foi analisada a frequência com que essas opções foram utilizadas pelo AlphaZero. Descobriu-se que os movimentos não clássicos eram usados em uma grande porcentagem de partidas, muitas vezes várias vezes por partida, em cada uma das variantes. "Isso sugere que as novas opções são de fato úteis e contribuem para o jogo", disseram os pesquisadores.
Outro segmento interessante do estudo são as aproximações dos valores das peças em cada uma das variantes. Estes foram calculados a partir de uma amostra de 10.000 partidas rápidas jogadas pelo AlphaZero:
Variante | p | C | B | T | D |
Clássico | 1 | 3.05 | 3.33 | 5.63 | 9.5 |
Sem roque | 1 | 2.97 | 3.13 | 5.02 | 9.49 |
Sem roque (10) | 1 | 3.14 | 3.40 | 5.37 | 9.85 |
Peão-uma-casa | 1 | 2.95 | 3.14 | 5.36 | 9.62 |
Afogamento=vitória | 1 | 2.95 | 3.13 | 4.76 | 8.96 |
Autocaptura | 1 | 3.10 | 3.22 | 5.34 | 9.42 |
Peão-atrás | 1 | 2.65 | 2.85 | 4.67 | 9.39 |
Semi-torpedo | 1 | 2.72 | 2.95 | 4.69 | 8.3 |
Torpedo | 1 | 2.25 | 2.46 | 3.58 | 7.12 |
Peão-lateral | 1 | 1.8 | 1.98 | 2.99 | 5.92 |
Avaliação qualitativa
Além da análise quantitativa, os pesquisadores também queriam responder a questões mais subjetivas sobre o valor estético dos tipos de posições, lances e padrões que surgem nas diferentes variantes. É aqui que entra Kramnik.
Para tentar avaliar qual das variantes poderia ser mais interessante para os humanos jogarem, o ex-campeão mundial estudou os padrões típicos, ideias e até mesmo o estilo de jogo do AlphaZero.
Conforme mencionado no artigo do ano passado, Kramnik considera o Xadrez sem roque uma variante potencialmente interessante, "já que a segurança do rei é frequentemente um problema para ambos os jogadores, permitindo ataque e contra-ataque simultâneos e a igualdade, quando alcançada, tende a ser de natureza dinâmica, em vez de 'seca'. A variedade de possibilidades para proteger o rei, e o momento de fazer isso, adiciona complexidade às aberturas".
Kramnik acha que não permitir o roque antes do 10º lance não é muito diferente do xadrez clássico; o AlphaZero tende a fazer o roque na maioria das partidas de qualquer maneira. Ele sente o mesmo em relação à variante Afogamento=vitória, em que apenas certos finais são avaliados de forma diferente.
A variante mais complicada, de acordo com Kramnik, é o Peão-lateral, porque resulta em "padrões que às vezes são muito 'estranhos' quando se está acostumado com o xadrez clássico. As estruturas de peões se tornam muito fluidas e é impossível criar debilidades permanentes".
Exemplos
Abaixo temos uma partida de cada uma das nove variantes como exemplo, com trechos dos comentários de Kramnik incluídos no artigo. As últimas cinco estão em forma de vídeo, pois nosso visualizador de partidas não consegue lidar com as regras alternativas! (Estamos trabalhando nisso.)
Sem roque
“Uma das principais vantagens do xadrez sem roque é que ele elimina, pelo menos por alguns anos, a enorme importância da preparação teórica no xadrez profissional de hoje, e faz os jogadores pensarem criativamente desde o início de cada partida”, disse Kramnik. "Isso inevitavelmente levaria a uma quantidade consideravelmente maior de partidas decisivas em torneios de xadrez até que a nova teoria se desenvolvesse, e seria preciso mais criatividade para vencer. Esses fatores também podem fazer com que torneios de elite sejam seguidos com maior entusiasmo pelos fãs do xadrez".
Sem roque (10)
"O principal objetivo da restrição parcial do roque, como um ajuste hipotético às regras do xadrez, seria contornar a teoria da abertura", disse Kramnik. "Como tal, poderia ser uma opção a considerar no xadrez de alto nível. O jogo em si não muda muito, e o AlphaZero geralmente visa jogar linhas mais lentas onde o roque realmente ocorre após os primeiros 10 lances".
Peão-uma-casa
"As regras e padrões básicos são praticamente os mesmos do xadrez clássico, mas a teoria de abertura muda e se torna completamente diferente", disse Kramnik. "Intuitivamente, parece que deveria ser mais difícil para as Brancas ganharem uma vantagem duradoura na abertura e convertê-la em vitória, mas como a teoria das aberturas teria que ser desenvolvida novamente, isso não afetaria o jogo entre os humanos, pelo menos no início. Deve-se notar que, na maioria das partidas do AlphaZero, surgem posições típicas do meio-jogo após o término da fase da abertura."
Afogamento=vitória
Dois cavalos contra um rei solitário agora é uma vitória.
"Olhando para as partidas do AlphaZero, pode-se afirmar que existem recursos defensivos suficientes na maioria das posições de meio-jogo para evitar chegar a finais inferiores que, sob esses novos parâmetros, podem levar ao desastre", disse Kramnik. "Um jogador forte pode, em princípio, aprender a alcançar essas posições para tirar vantagem delas ou encontrar maneiras de escapar delas."
Torpedo
"Os peões tornam-se muito poderosos na variante Torpedo", disse Kramnik. "Os peões passados, em particular, são um ativo muito poderoso e o valor dos peões muda dependendo das circunstâncias e conforme você se aproxima do final. Todas as possibilidades de ataque aumentam e isso favorece fortemente o lado que tem a iniciativa, o que torna a iniciativa um elemento crucial do jogo. Os peões são muito rápidos, então deixam de ser um elemento estratégico para se tornarem um elemento tático. A partida assume um caráter tático e o cálculo é essencial, comparado ao xadrez clássico".
Semi-torpedo
"A variante Semi-torpedo parece ser mais decisiva do que o xadrez clássico e menos do que a variante Torpedo", disse Kramnik. "É uma variante interessante, a ser levada em conta por aqueles que gostam do meio-jogo da variante Torpedo, mas não estão dispostos a abandonar a teoria de finais existente."
Peão-atrás
"A variante do Peão-atrás permite estruturas de peões mais fluidas e flexíveis e pode ser potencialmente interessante para jogadores que gostam de tais manobras estratégicas", escreve Kramnik. "Dado que o Peão-atrás oferece recursos defensivos adicionais, vencer de Brancas parece ser um pouco mais difícil, então a variante também pode agradar aos jogadores que gostam de defender ou os que gostam de atacar, mas estão em busca de um desafio."
Peão-lateral
“Esta é a mais intrigante e a mais “estranha” de todas as variantes que consideramos”, disse Kramnik. "Mesmo depois de ver as partidas jogadas pelo AlphaZero, os princípios do jogo permanecem um tanto misteriosos - não está totalmente claro qual deve ser o objetivo de ambos os lados. Os padrões são muito diferentes e isso faz com que muitos lances pareçam visualmente muito estranhos, já que seriam considerados erros no xadrez clássico. (...) Esta variante é muito diferente e às vezes difícil de entender, mas pode ser interessante para jogadores que estão abertos a experimentar coisas novas e que não tem apego ao jogo original!
Autocaptura
“Eu gosto muito dessa variante, até diria que, para mim, esta é simplesmente uma versão melhorada do xadrez clássico”, disse Kramnik. (...) "Apesar de seu efeito relativamente menor nas aberturas, as autocapturas adicionam valor estético no meio-jogo e fornecem opções adicionais e padrões de vitória nos finais. (...) Para finalizar, eu recomendo muito essa variante para os fãs que valorizam a beleza do xadrez acima de tudo".
O estudo de 97 páginas inclui muitas outras partidas e explicações de Kramnik que são instrutivas e divertidas. Você pode fazer o download do PDF aqui (em inglês).