Der Libratus Poker Bot hat in einer eindrucksvollen Machtdemonstration vier menschliche Gegenspieler auf höchstem Niveau geschlagen und es ist nun an der Zeit, ernsthaft nachzufragen, ob die Maschinen anfangen, das Pokerspiel komplett zu übernehmen.
Vor zwei Jahren entwickelte ein Team der Carnegie Mellon University im amerikanischen Pittsburgh ein Computerprogramm, welches die besten Pokerspieler im Heads-Up No-Limit Hold'em, einer der komplexeren Pokervarianten, schlagen sollte. Damals noch hatte das Programm Schwierigkeiten, als es gegen vier Poker-Profis antrat und verlor am Ende das Match gegen die Menschen.
Aber die Entwickler des Bots haben in den letzten zwei Jahren das Programm weiter verbessert und es ist zu konstatieren, dass die Verbesserungen augenscheinlich äußerst fruchtbar waren. Ein weiteres Match wurde anberaumt – wieder gegen vier der besten Heads-Up-Spieler, die die Pokerwelt zu bieten hat. 120.000 Hände, eine statistisch signifikante Zahl, wurde gespielt und das Ergebnis war die vollständige und erbarmungslose Vernichtung der menschlichen Spieler durch die künstliche Intelligenz.
Ist Poker, nach Schach und Go, das nächste Spiel, welches vom Computer „gelöst“ ist? Ist Poker für uns Menschen erledigt? Welchen Einfluss wird der eindrucksvolle Erfolg von Libratus auf das Pokerspiel haben? Dieser Artikel wird auf all diese Fragen eine Antwort geben.
Wie funktionierte das Match von Libratus gegen die Menschen?
Wer hat gespielt?
Dong Kim, Jason Les, Jimmy Chou und Daniel McAuley, vier erfahrene und verdiente Pokerspieler traten in diesem Match an. Dong Kim ist ein erfolgreicher Online-Highstakes-Spieler, Jason Les war 2015 zweimal nur knapp von einem WSOP-Bracelet entfernt, als er Zweiter und Dritter in zwei Turnieren der WSOP wurde, Jimmy Chou gewann vor einem guten Jahr die asiatische Pokermeisterschaft und Daniel McAulay hat in Online-Turnieren mehrere hundertausend Dollar Preisgelder gewonnen.
Viel wichtiger jedoch: Alle vier Spieler sind hervorragende Heads-Up-No-Limit-Spieler.
Der Libratus Bot wurde von einem Wissenschaftler Team der Carnegie Mellon University Pittsburgh rund um Noam Brown und Tuomas Sandholm entwickelt. Libratus ist eine Weiterentwicklung von Claudico, dem Bot, welcher vor zwei Jahren noch sein Match gegen die menschlichen Spieler verlor.
Regeln um den Glücksfaktor zu dämpfen
120.000 Hände wurden gespielt – 30.000 pro Spieler und das Match lief vom 11. bis zum 30. Januar.
Jede Hand begann aufs Neue mit 20.000 Chips pro Spieler und die Blinds lagen bei 50 / 100. So wurde sichergestellt, dass jede Hand mit Stacks von 200 Big Blinds gespielt wurde und ausreichend Manöverraum für ausgeklügelte Pokerstrategien vorhanden war.
Um den Glücksfaktor zu reduzieren, wurden zwei spezielle Regeln eingeführt:
- Alle Hände wurden gespiegelt. Zum Beispiel: Wenn Spieler A an einem Tisch Asse gegen Könige erhielt, bekam Spieler B parallel am anderen Tisch Könige gegen Asse. So wurde sichergestellt, dass keine Partei über den Lauf des Matches nur dank bessere Hände vorne lag.
- Keine harten All-Ins. Wenn es in einer Hand zu einem All-In vor dem River kam, wurden keine weiteren Karten gegeben und jeder Spieler erhielt Chips anteilig zu seiner Siegwahrscheinlichkeit. Wenn ein Spieler 70 / 30 vorne lag und auf dem Turn all-in war, erhielt er 70 Prozent des Pottes und der Gegner erhielt 30 Prozent.
Ergebnisse
Nach 20 Tagen waren 120.000 Hände gespielt und das Ergebnis war erschreckend eindeutig: Libratus gewann gegen jeden Spieler und das mit einer Quote von $14,72 pro Hand.
Das entspricht einer Winrate von 14,7 Big Blinds pro 100 Hände – ein phänomenales Ergebnis für den Bot.
Alle vier menschlichen Spieler haben über ihre jeweils gespielten 30.000 Hände gegen den Bot verloren und so schnitten sie ab:
Spieler | Verlust | Pro Hand |
Dong Kim | -$85.649 | -$2,85 |
Jimmy Chou | -$522.857 | -$17,43 |
Jason Les | -$880.087 | -$29,34 |
Daniel McAuley | -$277.657 | -$9,26 |
Summe / Schnitt | -$1.766.250 | -$14,72 |
Vielleicht hatte der Bot einfach nur eine Menge Glück?
Zwar waren die Regeln des Matches so gestaltet, dass der Glücksfaktor in Grenzen blieb, doch Zufall spielt bei den Ergebnissen jeder einzelnen Hand trotzdem eine enorme Rolle – trotz gespielgelter Hände und trotz Elimination von harten All-Ins. Vielleicht, nur vielleicht sind die menschlichen Spieler ja eigentlich doch besser und die künstliche Intelligenz hatte einfach nur unglaublichen Massel?
Werfen wir einen Blick auf die statistischen Kennzahlen des Matches.
Der Bot gewann mit einer Quote von 14,7 Big Blinds auf 100 Hände, 120.000 Hände wurden gespielt und die Standardabweichung (Was ist Standardabweichung beim Poker?) dürfte irgendwo zwischen 100 und 200 Big Blinds auf 100 Hände gelegen haben. Letzteres sind nur Schätzungen, aber auf jeden Fall korrekte Minimal- und Maximalwerte für die Standardabweichung.
Mit diesen Zahlen kann man einen Poker-Varianz-Rechner füttern und eine Antwort auf diese Frage bekommen: Wie groß ist die Wahrscheinlichkeit, dass die menschlichen Spieler eigentlich besser spielen als der Bot, aber aufgrund von Pech über 120.000 Hände mit einer Quote von 14,7 Big Blinds pro 100 Hände verloren haben?
Es stellt sich heraus, dass diese Wahrscheinlichkeit extrem niedrig ist: Sie liegt zwischen 0,0001 Prozent (im Falle des Minimalwertes für die Standardabweichung) und 0,54 Prozent (im Falle des Maximalwertes).
Das heißt: Es ist extrem unwahrscheinlich, dass das prinzipielle Ergebnis dieses Matches – der Bot spielt besser als die vier Menschen – etwas mit Glück zu tun hat.
Kein Pech, leider. Libratus ist schlicht und ergreifend der bessere Heads-Up-No-Limit-Spieler.
Wie funktioniert Libratus?
Im Grunde ist der Libratus Bot einfach nur eine immens große Sammlung von Strategien, welche vorschreiben, wie in verschiedenen Situationen zu spielen ist. Zwei Beispiele für solche Strategien (nicht notwendig identisch mit der tatsächlichen Spielweise des Bots):
- Wenn der Spielzustand preflop ist und der Bot als Erster an der Reihe ist und 7♦ 4♥ hält, dann wird in 50% der Fälle auf 3 Big Blinds geraist, in 30% der Fälle auf 5 Big Blinds geraist und in 20% der Fälle gefoldet.
- Wenn der Spielzustand auf dem Turn ist und der Bot geraist wurde, nachdem er bereits auf dem Flop geraist wurde und der Bot einen Ace-High-Flush-Draw auf einem niedrigen Board hält, dann wird er in 40% der Fälle callen und in 60% der Fälle all-in gehen.
Die Strategien habe alle eine Wenn-dies-dann-das-Struktur und können sehr komplex ausfallen.
Es wird schnell offensichtlich, dass es fast unzählbar viele verschiedene so beschreibbare Situationen für den Bot gibt. Für jede dieser Situationen hat der Bot eine Strategie.
In den allermeisten Fällen handelt es sich hierbei um gemischte Strategien, wie bei den beiden obigen Beispielen – manchmal tue dies, manchmal das. Sprich: Der Bot würfelt, um zu entscheiden, was zu tun ist – aber alle Wahrscheinlichkeiten und Aktionen sind im Vorfeld berechnet worden und gut austariert.
Berechnungen durch einen 10-Millionen-Dollar-Computer
Um all diese Strategien für all die verschiedenen Situationen zu berechnen, hat das Team um Noam Brown und Tuomas Sandholm einen Supercomputer namens Bridges genutzt. Bridges ist rund 30.000 mal schneller als ein durchschnittlicher Desktop-Rechner, hat 274 Terabyte Arbeitsspeicher und kostet 9,65 Millionen Dollar.
Der Computer hat viele Tage gegen sich selbst gespielt und dabei viele Milliarden Hände akkumuliert. Dabei versuchte er sich an zufälligen Strategien. Immer wenn eine Strategie funktionierte, wurde die Wahrscheinlichkeit, diese zu spielen, etwas erhöht. Wenn eine Strategie nicht funktionierte, wurde sie seltener gespielt.
Das bedeutet, der Bot hat in einem kolossalen Trial-and-Error-Run seine Strategien erlernt und verfeinert.
In einem ausführlichen AMA auf Reddit erklärte Noam Brown den Lernvorgang von Libratus wie folgt: „Die Grundlage des Bots ist Bestärkendes Lernen über sogenannte Counterfactual Regret Minimization. Vor dem Match hat er nur gegen sich selbst Poker gespielt. Er hat seine Strategien nicht über Hand-Histories von menschlichen Spielern gelernt."
Libratus ging also gut vorbereitet in das Match. Aber der Lernprozess des Bots ging auch während des Spiels weiter. Nach jedem Tag passte Libratus seine Strategien an, um Schwächen seiner menschlichen Gegenspieler auszunutzen und so konnte der Bot seine Spielstärke im Laufe der Zeit noch einmal deutlich erhöhen.
Wie kann ein Computer augenscheinlich starke Pokerspieler schlagen?
Für die meisten Spieler ist Poker ein Spiel von Reads, Bauchgefühl, Verschlagenheit und Intuition. Ein Computer hat kein Bauchgefühl, ein Computer hat keine Intuition.
Und anders als Schach oder Go ist Poker ein Spiel bei dem nicht alle Informationen offen liegen und bei dem eine Menge Zufall involviert ist. Wie kann ein Computer bei so einem Spiel derart glänzen?
Zunächst ist festzuhalten, dass Poker zwar ein extrem komplexes Spiel ist – weit komplexer als Schach oder sogar Go – aber die Komplexität des Spiels ist endlich. Es gibt nur soundso viele verschiedene Möglichkeiten, die Karten zu mischen und es gibt nur soundso viele verschiedene Arten und Weisen, wie ein Spiel ablaufen kann.
Um eine Zahl zu nennen: Im Heads-Up-Limit-Hold'em gibt es rund 316 Billiarden verschiedene, unterscheidbare Spielsituationen. Schafft man es, eine pro Sekunde auszuspielen, braucht man rund 10 Milliarden Jahre, bis man alle durch hat. Das sind ganz schön viele verschiedene Spielsituationen!
Im Falle von No-Limit liegt diese Zahl sogar ein paar Größenordnungen höher, da man beinahe beliebig große Beträge setzen kann. Zentraler Punkt ist aber: Die Zahl der möglichen Spielsituationen ist endlich.
Kein Bauchgefühl, nur eine perfekte Strategie
Für alle Spiele in denen es nur endlich viele Spielsituationen gibt, gibt es mindestens eine so genannte Nash-Gleichgewichts-Stragie. Eine solche Gleichgewichts-Strategie ist eine Strategie, welche sicherstellt, dass man nicht schlechter abschneidet als der Gegner, egal welche Strategie dieser benutzt. In einfachen Worten: Spielt man eine Gleichgewichts-Strategie kann man langfristig gegen keinen anderen Spieler verlieren.
Die Existenz dieser Gleichgewichtsstrategien wurde 1950 von John Nash bewiesen und dafür erhielt er später den Wirtschaftnobelpreis.
Diese Nash-Gleichgewichts-Stragie heißt: Bauchgefühl, Reads und Intuition spielen am Ende keine Rolle. Es gibt eine perfekte Strategie für Poker, man muss sie nur finden.
Alles was man dafür braucht, ist ein Computer der viele Billiarden verschiedene Spielsituationen erfassen kann, mit Abermillionen Terabyte Arbeitsspeicher ausgestattet ist und der unfassbar schnell ist. Dann muss man nur noch ein paar ungemein clevere Wissenschaftler davor setzen, die eine Methode entwickeln, mit dieser Rechenkraft, die perfekte Strategie zu finden.
Libratus ist hier nur der Anfang. Der Bot vereinfacht die meisten Situationen beim Spiel. Zum Beispiel mag er nicht unterscheiden zwischen einem King-Jack-High Flush-Draw und einem King-Ten-High-Flush-Draw oder er mag nicht unterscheiden zwischen einer Bet in Höhe von 55% des Pots und 60%.
Aber Libratus ist an einer perfekten Strategie schon dicht dran – zumindest dicht genug um jeden menschlichen Gegenspieler vernichtend zu schlagen. Mit mehr Zeit und mehr Rechenkraft als dem jetzigen 9,65 Millionen Dollar teuren Supercomputer wird Libratus (oder der Nachfolger) seine Leistung noch verbessern und früher oder später wird es Bots geben, die jeden Spieler in jeder Pokervariante schlagen.
Ist Poker gelöst, können wir einpacken?
Libratus hat die Menschen im Heads-Up-No-Limit-Hold'em regelrecht vorgeführt und vor zwei Jahren hat die University of Alberta den Cepheus Bot vorgestellt, eine künstliche Intelligenz, die Heads-Up-Limit mit einer fast perfekten Strategie spielt.
Man macht wenig falsch, wenn man sagt, dass diese beiden Poker-Varianten gelöst sind. Tatsächlich gelang es den Jungs von der University of Alberta, zu beweisen, dass ihr Limit-Bot höchstens 0,05 Big Bets auf 100 Hände schlechter spielt, als mit einer perfekten Strategie möglich wäre.
Libratus mag noch sehr viel weiter von einer perfekten Strategie entfernt sein, aber es ist nur eine Frage der Zeit, bis auch diese Lücke geschlossen wird.
Was ist mit anderen Poker-Varianten? Poker mit mehr als zwei Spielern ist um mehrere Größenordnungen komplexer als Heads-Up, selbiges gilt für kompliziertere Varianten wie etwa Omaha. Aber in der Welt von Computern, deren Leistung nach wie vor exponentiell zunimmt heißt „mehrere Größenordnungen komplexer“ in der Regel einfach nur: „in ein paar Jahren ist man so weit“.
Es ist nur eine Frage der Zeit, bevor Bots die uneingeschränkten Herrscher in der Pokerwelt sind.
Noch ist ein Bot wie Libratus so komplex, dass er eine direkte Verbindung zu seinem enormen Supercomputer braucht, während er spielt und dabei ist er erstaunlich langsam. Es besteht also keine direkte Gefahr, dass Libratus demnächst im lokalen Casino oder Online-Spiel auftaucht. Aber in absehbarer Zeit werden ähnlich leistungsstarke Bots und Computer auf unseren Smart-Geräten laufen.
Sind wir nicht schon längst da?
Ein beängstigender Sachverhalt ist: Bots müssen gar keine perfekte Strategie spielen, sie müssen gar nicht die besten Spieler der Welt schlagen. Um in der Poker-Welt für Aufruhr zu sorgen müssen Bots nur den Durchschnittsspieler schlagen und hier gibt es schlechte Nachrichten: Soweit sind wir schon.
Für praktisch jedes Pokerspiel gibt es bereits einen Computer, der besser als der durchschnittliche, ja selbst besser als der gute menschliche Spieler ist. Poker mag zwar im theoretischen Sinne noch nicht gelöst sein, aber es ist hinreichend gelöst in dem Sinne, dass ein Bot einen Durchschnittsspieler schlagen kann.
Selbiges war auch zu beobachten, als Schach-Computer entwickelt wurden. Jahre bevor Deep Blue den amtierenden Schachweltmeister Garry Kasparov im Jahr 1997 schlug, spielten Computer bereits auf Meister- und Großmeister-Niveau. Tatsächlich war es bereits 1981 als ein Computer erstmals den ELO-Rang eines Meisters erreichte – 16 Jahre bevor die künstliche Intelligenz den Weltmeister schlug.
Im Poker sind wir im Moment vermutlich irgendwo zwischen diesen beiden Punkten.
Bedeutet dies das Ende von Poker?
Die künstliche Intelligenz schlägt die besten Protagonisten des Pokerspiels und da drängt sich natürlich eine Frage auf: Stehen wir vor dem Ende von Poker?
Die Antwort auf diese Frage ist zweifältig, da man hier zwischen Live-Poker und Online-Poker unterscheiden muss.
Aber zunächst ist festzustellen, dass Bots für die Poker-Industrie kein neues Phänomen sind. Der überragende Erfolg von Libratus ist nicht das erste Mal, dass Bots bewiesen haben, dass sie gute menschliche Spieler schlagen können.
Vor mehr als fünf Jahren wurde im Bellagio Casino in Las Vegas ein $2 / $4 Limit-Bot installiert und jeder konnte gegen diesen Spielen. Der Bot nahm keine Rake, er verdiente sein Geld schlicht damit, dass er besser spielte als die Gegner. Das heißt: Bereits vor mehr als fünf Jahren gab es Bots, die durchschnittliche Spieler schlagen konnten.
Im Online-Poker-Business sind spielstarke Bots seit rund acht Jahren ein größer werdendes Problem und alle seriösen Anbieter verbieten die Benutzung von Bots, sperren Spieler, die sich dem Verbot widersetzen, konfiszieren deren Gewinne und vergüten geschädigte Spieler.
Das heißt, der Erfolg von Libratus wird an der generellen Lage in der Poker-Industrie erst einmal wenig ändern – er rückt die Fähigkeiten und bemerkenswerten Fortschritte der künstlichen Intelligenz im Poker nur ins Scheinwerferlicht.
Keine Auswirkungen auf Live-Poker
Live wird sich in der absehbaren Zukunft durch Bots wohl kaum etwas ändern. Wir werden nicht plötzlich Spieler an ihren Smartphones beobachten, die perfekte Strategien ausrechnen, wir werden nicht während des Main-Events der WSOP erleben, wie Zuschauer den besten Zug durchrechnen und ihrem Spieler zuflüstern.
Einige Profi-Spieler werden jedoch sicherlich hoch entwickelte Bots nutzen und ihre Strategien untersuchen und verbessern. Aber vergleichbares passiert heute bereits.
Es scheint sehr unwahrscheinlich, dass Live-Poker durch Bots in den nächsten Jahren, wohl sogar Dekaden ändern wird.
Schach ist gelöst und selbst ein einfacher Computer spielt inzwischen besser als jeder menschliche Spieler, dennoch spielen viele Millionen Menschen Schach und verfolgen gebannt die Weltmeisterschaften dieses Spiels. Genauso werden wir auch in vielen Jahren noch Pokerspieler am grünen Filz sehen, die um Ehre, Titel und sicherlich auch Millionen Dollar spielen.
Online Poker wird sich anpassen müssen
Im Online-Bereich sieht es jedoch weitaus düsterer aus. Es ist die Aufgabe der Pokeranbieter, sicherzustellen, dass Poker auf einem ausgeglichenen und fairen Terrain ausgetragen wird. Die Anbieter müssen sicherstellen, dass Menschen nur gegen Menschen spielen. Die meisten Pokerseiten tun diesbezüglich bereits ihr Bestes, doch es gibt keine 100-prozentige Sicherheit. Wenn man sich nur hinreichend anstrengt, kommt man auch an den besten Sicherheitsmaßnahmen vorbei.
Dass gewisse Pokervarianten von Supercomputern praktisch gelöst sind, hat hier und jetzt noch keine Auswirkungen auf Online-Poker. Will man sich jedoch die mittel- und langfristige Zukunft von Online-Poker vorstellen, muss man wieder nur einen Blick auf das Schachspiel werfen. Kaum jemand, der bei Trost ist, wird zustimmen, online Schach um eine große Summe Geld zu spielen. Es ist möglich und nicht unwahrscheinlich, gegen einen unschlagbaren Bot anzutreten. Online-Schach zum Spaß an der Freude? Na klar! Um Geld? Auf gar keinen Fall!
Online-Poker dreht sich fast ausschließlich um Geld und es wird in der Zukunft einen Punkt geben, bei dem auch die besten Sicherheitsmaßnahmen der Anbieter keine hinreichend Bot-freie Spielumgebung mehr garantieren können. Es ist nur eine Frage der Zeit, bevor Online-Poker vor der Aufgabe steht, sich fundamental weiterzuentwickeln, wenn es nicht untergehen will. Und wir sprechen hier nicht von Dekaden, sondern von fünf, maximal zehn Jahren.
Auf die Frage, ob Libratus das Ende von Online-Poker einläutet antwortete Dong Kim, bester menschliche Spieler in dem Match gegen den Bot etwas ernüchtert: „Nicht in der unmittelbaren Zukunft, aber wir müssen uns Sorgen machen. Ich bin kein Wissenschaftler, aber ich glaube bei Computern wächst alles exponentiell. Das Ende ist nahe. Es war ein guter Lauf.“
Weiterführende Links
» Über den Bridges Super Computer
» Über Claudico, Libratus Vorgänger
» Über Cepheus, den perfekten Limit-Bot
» Hat Cepheus Poker gelöst?
» Dong Kim, Jason Les und Noam Browns Reddit AMA
» Spiel gegen Cepheus online
» Spiel gegen Cleverpiggy (einen guten NLH Bot)
Dieser Artikel erschien auf PokerOlymp am 31.01.2017.