AlphaZero gewinnt erneut ein 1000-Partien-Duell gegen Stockfish
Das Unternehmen für künstliche Intelligenz DeepMind hat heute erstaunliche Ergebnisse einer aktualisierten Version des maschinell lernenden Schachprojekts Alpha Zero veröffentlicht, die an die schockierende Nachricht vom letzten Dezember erinnern.
Jetzt steht wohl zweifelsfrei fest, dass AlphaZero zu den besten Schachprogrammen der Welt gehört.
Eine upgedatete Version von AlphaZero erzielte gegen Stockfish 8 155 Siege bei nur 6 Niederlagen und 839 Remis. (Weiter unten seht ihr 3 Partien die GM Robert Hess mit Hilfe von Stockfish 10 analysiert hat.)
AlphaZero besiegte Stockfish auch in einer Reihe von Partien mit verschiendenen Bedenkzeiten. Einmal sogar bei einer Zeitquote von 10:1.
Laut DeepMind besiegte Alpha Zero sogar die "neueste Entwicklungsversion" von Stockfish mit nahezu identischen Ergebnissen wie im Match gegen Stockfish 8. Jedoch ist in der Vorabversion des Zeitschriftenartikels vom 7. Dezember 2018 die genaue Version nicht angegeben.
[Update: Im soeben veröffentlichten Artikel ist von Stockfish 9 die Rede.]
Die selbstlernende Maschine gewann auch einen Vergleich gegen "eine Version von Stockfish, die eine starke Eröffnungsdatei verwendet", so DeepMind. Die Verwendung der Eröffnungsdatei schien Stockfish geholfen zu haben, da es eine beträchtliche Anzahl von Weißpartien gewann - aber nicht genug, um das Duell zu gewinnen.
AlphaZeros Ergebnis (Siege grün, Niederlagen rot) gegen Stockfish und gegen Stockfish mit Eröffnungsdatei. Bild von DeepMind via Science.
Die Ergebnisse wurden soeben im Science-Journal veröffentlicht. DeepMind hat seinen Firmensitz in London und ist im Besitz von Alphabet, der Muttergesellschaft von Google.
Das 1.000 Partien Duell wurde bereits Anfang 2018 ausgetragen. Während der Partien bekamen AlphaZero und Stockfish eine Bedenkzeit von jeweils drei Stunden pro Partie und 15 Sekunden pro Zug. Diese Zeitkontrolle scheint eines der größten Argumente des Duells von 2017 zu widerlegen, nämlich, dass die Zeitkontrolle von einer Minute pro Zug eine Benachteiligung von Stockfish gewesen wäre.
Bei 3 Stunden plus 15 Sekunden ist dieses Argument hinfällig und es ist für jede Computer Engine eine extrem lange Bedenkzeit. In den Partien mit Zeithandicap hat Alpha Zero bis zu einer Zeitquote von 10:1 dominiert. Erst ab einer Zeitquote von 30:1 war Stockfish überlegen.
AlphaZeros Ergebnisse (Siege grün, Niederlagen rot) gegen Stockfish 8 bei Partien mit verschiedenen Bedenkzeiten. Bild von DeepMind via Science.
Die Ergebnisse von AlphaZero in den Partien mit verschiedenen Bedenkzeiten deuten darauf hin, dass es nicht nur viel stärker ist als herkömmliche Schachmodule, sondern auch eine viel effizientere Suche nach Zügen hat. Laut DeepMind verwendet AlphaZero eine Monte-Carlo-Baumsuche und prüft etwa 60.000 Stellungen pro Sekunde, im Gegensatz zu 60 Millionen bei Stockfish.
Eine Illustration, wie AlphaZero nach Zügen sucht. Bild von DeepMind via Science.
Was können Computerschachfans durch das Lesen dieser Ergebnisse feststellen? AlphaZero hat seinen Status als einer der besten Schachspieler der Welt gefestigt. Die Ergebnisse sind jedoch noch faszinierender, wenn man die Fähigkeit künstlicher Intelligenz, das allgemeine Gameplay zu meistern, in Betracht zieht.
Laut dem Artikel in der Zeitschrift ist der aktualisierte AlphaZero-Algorithmus in drei herausfordernden Spielen identisch: Schach, Shogi und Go. Diese Version von AlphaZero konnte die besten Computer-Spieler aller drei Spiele nach nur wenigen Stunden Selbsttraining, angefangen mit den Grundregeln der Spiele, schlagen.
Das neue Ergebnis kommt auf den Tag genau ein Jahr nachdem DeepMind das Ergebnis des ersten Duells gegen Stockfish veröffentlicht hat. Der Tag, der den Schachsport vielleicht für immer veränderte.
Seitdem versucht das Open-Source Projekt Lc0 den Erfolg von AlphaZero zu duplizieren und das Projekt hat auch viele Anhänger gefunden. Mittlerweile kann Lc0 bei der momentan laufenden Chess.com Computer Chess Championship (CCC) mit Stockfish und den anderen Top-Engines konkurrieren.
CCC Fans wird es freuen, dass in einigen der neuen AlphaZero Partien auch "fawn pawns," in Erscheinung traten. "Fawn-pawns" werden im CCC Slang Bauern genannt, die einsam und alleine im gegnerischen Territorium stehen und die Bewegungsfreiheit des Gegners einschränken. Vielleicht sind solche Bauern die Sieg bringende Strategie der Zukunft, denn wie es scheint, haben AlphaZero und Lc0 diese Strategie unabhängig voneinander erlernt.
DeepMind hat 20 Beispielpartien des 1.000 Partien Duells, die von GM Matthew Sadler ausgewählt wurden, veröffentlicht. Chess.com hat 3 davon ausgiebig mit Stockfish 10 analysiert und GM Robert Hess präsentiert Euch diese Analyse per Video. Die gesamten 20 veröffentlichten Partien könnt ihr am Ende dieses Artikels, inklusive einer Analyse von Stockfish 10 und 4 Analysen von Lc0, herunterladen.
Update: Mittlerweile hat DeepMind 210 Partien veröffentlicht, die ihr hier herunterladen könnt.
We are also releasing 210 new chess games - including a top 20 selected by GM Matthew Sadler @gmmds - that show off its dynamic playing style and we hope will inspire chess players of all levels around the world. https://t.co/ZJDoaon5z0
— DeepMind (@DeepMindAI) December 6, 2018
Wir veröffentlichen heute 210 neue Schachpartien - darunter 20 von GM Matthew Sadler @ gmmds ausgewählte Top Partien, die den dynamischen Spielstil demonstrieren und hoffen, dass sie Schachspieler aller Stärken auf der ganzen Welt begeistern werden.
Ausgewählte Partie Nummer 1 mit eine Analyse von Stockfish 10:
Ausgewählte Partie Nummer 2 mit eine Analyse von Stockfish 10:
Videoanalyse der 2. Partie von GM Robert Hess:
Ausgewählte Partie Nummer 3 mit eine Analyse von Stockfish 10:
Videoanalyse der 3. Partie von GM Robert Hess:
IM Anna Rudolf hat ebenfalls eine Partie analysiert und nennt sie "AlphaZeros Meisterstück."
Auch die neue Version von AlphaZero hat sich Schach, beginnend mit den Spielregeln, selbst beigebracht. Dabei wurden maschinelle Lerntechniken eingesetzt, die die neuronalen Netzwerke ständig aktualisierten. Laut DeepMind wurden 5.000 TPUs (Googles Tensor Processing Unit, ein anwendungsspezifischer integrierter Schaltkreis für künstliche Intelligenz) verwendet, um die ersten Partien gegen sich selbst zu generieren und dann wurden 16 TPUs zum Trainieren der neuronalen Netzwerke verwendet.
Die gesamte Trainingszeit betrug neun Stunden. Nach Angaben von DeepMind brauchte der neue AlphaZero nur vier Stunden um Stockfish zu übertreffen. Nach neun Stunden war AlphaZero der Weltmeister Engine weit überlegen.
Für die Partien selbst verwendete Stockfish 44 CPU-Kerne (Core Processing Unit) und AlphaZero einen einzigen Computer mit vier TPUs und 44 CPU-Kernen. Stockfish hatte eine Hash-Größe von 32 GB und verwendete Syzygy Endspiel-Datenbanken.
.
AlphaZeros Ergebnisse gegen Stockfish in den beliebtesten menschlichen Eröffnungen. Links hatte AlphaZero Weiß, rechts Schwarz. Bild von DeepMind via Science. Wenn ihr auf das Bild klickt, bekommt ihr eine größere Version.
Die veröffentlichten Beispielspielpartien wurden von den Schachprofis, die eine Vorabansicht bekamen, beeindruckend genannt. GM Robert Hess stufte die Partien als "immens kompliziert" ein.
DeepMind selbst hat sich auch über den einzigartigen Spielstil seiner Engine im Artikel geäußert:
"In mehreren Partien hat AlphaZero Figuren für einen langfristigen strategischen Vorteil geopfert, was darauf hindeutet, dass es eine flüssigere, kontextabhängige Stellungsbewertung hat als die regelbasierten Bewertungen, die in früheren Schachprogrammen verwendet wurden," sagten die DeepMind-Forscher.
Das AI-Unternehmen betonte auch, wie wichtig es war, dieselbe AlphaZero-Version für alle drei verschiedenen Spiele zu verwenden, was sie als Durchbruch in der allgemeinen Intelligenz bei Spielen bezeichneten:
"Diese Ergebnisse bringen uns einen Schritt näher an die Erfüllung unserer langjährigen Ambitionen im Bezug auf künstliche Intelligenz: Ein allgemeines Spieleprogramm, das jedes Spiel lernen und beherrschen kann," sagten die DeepMind-Forscher.
I couldn't help but be pleased that AlphaZero plays in open, dynamic style. It's not just my style, but it's not the incomprehensible maneuvering we feared computer chess would become. My @sciencemagazine article: https://t.co/ftcKzYTsw0 https://t.co/85h44ebCrS
— Garry Kasparov (@Kasparov63) December 6, 2018
Ich freue mich, dass AlphaZero einen offenen, dynamischen Stil spielt. Nicht nur, weil es auch mein Stil ist, sondern auch, weil wir Angst davor hatten, dass Computerschach zu einem unverständlichen manövern werden würde.
Hier könnt ihr die 20 Beispielpartien, die DeepMind veröffentlicht hat, zusammen mit einer Analyse von Stockfish 10 auf einem starken Computer, herunterladen. Bei den ersten 10 Partien wurde keine Eröffnungsdatei verwendet. Bei den zweiten 10 wurden Eröffnungen der 2016 TCEC (Top Chess Engine Championship) gespielt.
20 Partien mit einer Analyse von Stockfish 10:
4 ausgewählte Partien mit einer Analyse von Lc0:
Seit ihr schon Fans von AlphaZero? Lc0 wurde von AlphaZero inspiriert und spielt gerade in der laufenden Computer Chess Championship.