Poker-KI Pluribus schlägt mehrere menschliche Profispieler gleichzeitig

Tuomas Sandholm und Noam Brown haben ihre KI-Systeme so weiterentwickelt, dass sie sich nun in einer Runde mit insgesamt sechs Spielern behaupten können.

In Pocket speichern vorlesen Druckansicht 71 Kommentare lesen
Poker-KI Pluribus schlägt mehrere menschliche Profispieler gleichzeitig

(Bild: Aleksey Kurguzov/Shutterstock.com)

Lesezeit: 4 Min.

2017 sorgten Tuomas Sandholm, Informatikprofessor an der US-Universität Carnegie Mellon, und sein damaliger Mitarbeiter Noam Brown für Schlagzeilen mit ihrem KI-Programm Libratus, das gegen einzelne menschliche Profispieler gewann. Mittlerweile haben sie die Künstliche Intelligenz (KI) ihres Systems weiter verbessert, sodass diese es mit mehreren Experten im Bluffen aus Fleisch und Blut gleichzeitig aufnehmen können. "Pluribus" haben sie die neue KI folgerichtig getauft und sprechen von einem weiteren Meilenstein in der Forschung rund um die Schlüsseltechnik.

Insgesamt kann sich Pluribus in einer Runde mit insgesamt sechs Spielern behaupten, schreiben Sandholm und sein inzwischen bei Facebook tätiger Kollege in einem am Donnerstag im Magazin Science veröffentlichten Aufsatz mit dem Titel "Superhuman AI for multiplayer poker". Gespielt wurde demnach wieder Texas-Hold‘em-Poker ohne Limit wie zuvor schon bei Libratus. Bei dieser Variante führt neben Glück vor allem auch Taktik zum Ziel.

Erfahrene menschliche Spieler können zwar die Spielweise ihrer Mitspieler gut durchschauen, statistische Zusammenhänge sind aber schwerer zu erfassen. KI-Algorithmen lernen letztere dagegen leicht aus ihren Trainingsdaten, versagten lange aber am Verständnis von Taktiken. Schon Libratus konnte hier zumindest im "Heads Up", dem Spiel eins gegen eins, durch sogenanntes Reinforcement-Lernen aufholen. Dabei wird der Entscheidungsbaum der möglichen Spielzüge systematisch auf diejenigen eingeschränkt, die das KI-Programm später mit der geringsten Wahrscheinlichkeit abgleicht.

Letztlich siegt der Algorithmus so mit einem asymmetrischen Informationsvorteil. Er spielt nach einer festen, vorgegebenen Strategie und kann sich nicht auf beobachtete Tendenzen der Gegner ausrichten. Pluribus lernte auch ausschließlich durch das Spiel gegen sich selbst. Ein großer Vorteil der KI-Variante ist laut der Studie, dass sie im Einsatz im Vergleich zu Programmen wie Libratus, DeepStack, AlphaGo oder auch Deep Blue viel weniger Rechenleistung und -zeit benötigt.

Andere Experten erkennen die solide technische Arbeit des Forscherduos an, bezeichnen die Ergebnisse aber eher als irdisch statt übermenschlich. Marcus Liwicki, Leiter der MindGarage an der TU Kaiserslautern, hält die Methode des Experiments und der Evaluation für fair, da die menschlichen Spieler sowie das Programm die gleichen Informationen in Form einer eindeutigen Akteurs-ID erhalten hätten. Daraus sei nicht zu erkennen gewesen, ob sich dahinter eine Person oder eine Software verbarg. Es seien auch genügend Runden gespielt worden, um "signifikante Ergebnisse zu erzielen". Das Experiment sollte dem Professor zufolge aber noch von einem unabhängigen Evaluationsteam mit anderen Spielergruppen bestätigt werden, um jegliche Voreingenommenheit auszuschließen.

Generell wird der Begriff "übermenschlich" Liwicki zufolge inflationär verwendet, vor allem bei Artikeln von Firmen oder Forschungsinstituten, die einen Schwerpunkt auf Marketing legen. Der Begriff sollte lieber vermieden werden, da auch der Taschenrechner schon besser rechne oder das Auto schneller fahre als der Mensch. Interessant werde es erst, "wenn die KI tatsächlich in bisher unbekannten und uneingeschränkten Situationen schneller lernt, rational bessere Entscheidungen zu fällen".

"Die zur Lösung angewandten Techniken haben sich sukzessive weiter entwickelt", erläutert Johannes Fürnkranz, Professor für Knowledge Engineering an der TU Darmstadt. "Die gleichen Methoden, mit denen man in einem 2-Player Setting optimal spielen kann, wurden nun auf 6 Spieler übertragen". Dort funktionierten sie "zwar nicht mehr garantiert optimal", aber seien im Vergleich zu menschlichen Spielern "noch ausreichend stark". Jeder Fortschritt in der anerkannten KI-Test-Domäne "Spiele" sei "von größtem Interesse für unsere Forschung", der Erfolg von Pluribus von der Wirkung her aber nicht ganz vergleichbar mit Resultaten wie TD-Gammon in Backgammon, Deep Blue in Schach, Watson in Jeopardy oder AlphaGo für Go. (mho)