Vor nicht allzu langer Zeit war es unerreichbar, das alte chinesische Go-Spiel zu beherrschen künstliche Intelligenz. Aber dann AlphaGo, der KI-Player von Google DeepMind, fing an zu gehen Selbst die besten menschlichen Gegner im Staub. Doch selbst diese weltbeste KI brauchte Menschen, von denen sie lernen konnten. Dann, am Mittwoch, hat DeepMinds neue Version die Leute völlig in den Abgrund getrieben.
AlphaGo Zero hat die Fähigkeiten seines Vorgängers übertroffen und die traditionelle Methode von AI zum Lernen von Spielen umgangen, bei der Tausende von Stunden menschliches Spiel beobachtet werden. Stattdessen fängt es einfach an, nach dem Zufallsprinzip zu spielen und verbessert seine Fähigkeiten, indem es wiederholt gegen sich selbst spielt. Drei Tage und 4.9 Millionen solcher Spiele später ist das Ergebnis die beste Go-Playing-KI der Welt.
"Es ist leistungsfähiger als frühere Ansätze, da wir die Einschränkungen des menschlichen Wissens beseitigt haben", sagt David Silver, der leitende Forscher für AlphaGo.
"Die Menschheit hat Go-Wissen aus Millionen von Spielen gesammelt, die über Tausende von Jahren gespielt wurden", schreiben die Autoren in ihrer Arbeit. "Innerhalb weniger Tage ... konnte AlphaGo Zero einen Großteil dieses Go-Wissens sowie neuartige Strategien, die neue Einblicke in das älteste Spiel ermöglichen, wiederentdecken."
Der alternative Ansatz von AlphaGo Zero hat es ermöglicht, Strategien zu entdecken, die Menschen nie gefunden haben. Zum Beispiel lernte es viele verschiedene Josekis - Sequenzen von Zügen, die zu keinem Nettoverlust für beide Seiten führen. In den Tausenden von Jahren, in denen Go gespielt wurde, wurden viele Josekis aufgeschrieben, und zunächst lernte AlphaGo Zero viele der bekannten. Im weiteren Verlauf des Selbsttrainings begann es jedoch, bisher unbekannte Sequenzen zu bevorzugen.
Um diese neuen Moves zu testen, setzte DeepMind AlphaGo Zero gegen die Version ein, die den 18-Weltmeister Lee Sedol besiegte. In einem 100-Spiel Grollspielgewann es 100-0. Dies trotz nur drei Tagen Training im Vergleich zu mehreren Monaten für seinen Vorgänger. Nach 40-Trainingstagen gewann es auch 89-11 gegen eine bessere Version von AlphaGo, die Ke Jie, die Nummer 1 der Welt, besiegt hatte (Natur, DOI: 10.1038 / nature24270).