Spieltheorie ist ein populäres, aber oft missverstandenes Thema in Diskussionen um Hold’em geworden. Dieser Artikel soll ein fundamentales Verständnis davon vermitteln, was spieltheoretisch optimale Strategie ist, wie sie funktioniert, und welchen Einfluss sie auf Hold’em hat. Bevor wir damit beginnen, möchten wir aber zunächst einige Schlüsseldefinitionen erläutern. Diese Definitionen sind nicht unbedingt die allgemein gebräuchlichen.
Optimal Exploitive Strategy: Eine Strategie, die den höchstmöglichen Erwartungswert gegen die gegnerische Strategie erzielt. Falls beispielsweise die gegnerische Strategie in einer Partie Stein-Schere-Papier darin besteht, jedesmal Stein zu wählen, dann ist die Optimal Exploitive Strategy, jedesmal Papier zu nehmen. Das gilt auch, wenn die gegnerische Strategie zu 50% Stein, zu 25% Papier und zu 25% Schere ist.
Suboptimal Strategy: Eine Strategie, die schlechter als die Optimal Exploitive Strategy abschneidet. Falls beispielsweise die gegnerische Strategie darin besteht, jedesmal Stein zu wählen, dann ist die Wahl von Papier zu 50% und Stein zu 50% immer noch eine Gewinnerstrategie. Der Erwartungswert dieser Strategie ist jedoch geringer als der, nur Papier zu wählen. Daher ist die Papier-und-Stein-Strategie suboptimal.
Game Theory Optimal (GTO): Eine Strategie, die den höchstmöglichen Erwartungswert ergibt (bzw. optimal ist), wenn der Gegner immer die bestmögliche Gegenstrategie wählt. Bei Stein-Schere-Papier besteht die GTO-Strategie darin, zufällig aus einer gleichmäßigen Verteilung von Papier, Stein und Schere auszuwählen. Wählt man Stein seltener als Papier, dann hat man eine Equity von weniger als ½ gegen jemanden, der nur Schere wählt. Genauso muss man Papier mindestens so oft wie Schere, und Schere mindestens so oft wie Stein wählen. Im Ergebnis muss man Papier, Schere und Stein in der gleichen Häufigkeit wählen, um eine Equity von ½ gegen alle Strategien zu garantieren. Solange der Gegner immer die optimale Gegenstrategie anwendet, kann keine Strategie einen höheren Erwartungswert haben.
Exploitive Strategy: Jede Strategie, die einen höheren Erwartungswert als die GTO-Strategie gegen einen bestimmten Gegner besitzt.
Exploitable Strategy: Eine Strategie, die einen geringeren Erwartungswert gegen bestimmte Exploitive Strategies hat als die GTO-Strategie. Alle Nicht-GTO-Strategien sind exploitable.
Wenn man optimale exploitive Strategien analysiert, setzt man die gegnerische Strategie als bekannt voraus. Beispiel: „Mein Gegner wählt immer Stein.“ In der Realität ist die Strategie unserer Gegner unbekannt, und wir agieren oft auf Basis von Vermutungen und Beobachtungen, um zu ermitteln, wie wir die gegnerische Strategie behandeln werden. Um eine GTO-Strategie zu bestimmen, setzen wir voraus, dass der Gegner gegen jede Strategie, die wir anwenden, immer die optimale exploitive Gegenstrategie wählt, statt eine fixe Strategie zu spielen.
Hold’em ist ein sehr viel komplizierteres Spiel als Stein-Schere-Papier, und solange das Spiel nicht von Computern gelöst ist, wird niemand jemals gegen einen Gegner spielen, der immer eine GTO-(oder unexploitable) Strategie anwendet. Das ist ein wichtiger Punkt, da eine GTO-Strategie nicht unbedingt die Strategie mit dem höchsten Erwartungswert ist. Falls die gegnerische Strategie beispielsweise darin besteht, immer Stein zu wählen, dann besitzt die GTO-Strategie, zufällig aus einer gleichmäßigen Verteilung von Papier, Stein und Schere zu wählen, einen niedrigeren Erwartungswert als eine reine Papier-Strategie.
Die GTO-Strategie spielt aber trotzdem eine wichtige Rolle bei Hold’em. Auch wenn eine GTO-Strategie einen geringeren Erwartungswert haben kann als eine exploitive Strategie, kann das Verständnis, was die GTO-Strategie ist und wie die gegnerische Strategie davon abweicht, dabei helfen, den Gegner besser auszubeuten. Darüberhinaus ermöglicht das Verständnis der GTO-Strategie, balancierte Strategien zu entwerfen, die schwer auszunutzen sind. Diese Strategien können als Verteidigung gegen harte Gegner angewendet werden.
Wie in vielen einfachen Spielen wie Stein-Schere-Papier wird eine GTO-Strategie bei Hold’em oft ermittelt, indem man den Indifferenzpunkt findet. Das heißt, die eigenen Aktionen werden nach einer GTO-Strategie so verteilt sein, dass der Gegner indifferent zwischen zwei Aktionen ist. Im Ergebnis ist die eigene Strategie unexploitable.
Hold’em wurde noch nicht gelöst, aber viele Mini-Spiele, die Hold’em-Situationen modellieren. Indem man versteht, wo die Indifferenzpunkte in verschiedenen Hold’em-Szenarien liegen, kann man gegnerische Abweichungen von der GTO-Strategie identifizieren und den Gegner maximal ausbeuten. In seinem Herzen ist Hold’em ein sehr einfaches Spiel: Statt mit einer Verteilung von Schere, Stein und Papier zu spielen, spielt man mit einer Verteilung von Bluffs und Nicht-Bluffs. Durch das Verständnis der einfachsten Mini-Spiele kann man sein Pokerspiel deutlich verbessern.
Ein übliches Beispiel eines Mini-Spiels wäre folgendes: Wir halten entweder Hände, die im Showdown immer gewinnen oder immer verlieren, und können betten oder checken, während der Gegner nur callen oder folden kann. Wenn er callt, gibt es einen Showdown. Das ist analog zu einer Situation auf dem River bei Hold’em, in der die gegnerische Auswahl der möglichen Hände klein und unsere polarisiert ist. Durch die Lösung dieses Mini-Spiels erkennt man, dass die GTO-Strategie darin besteht, proportional zu den Odds, die wir dem Gegner für einen Call bieten, zu bluffen. Betten wir beispielsweise $1 in einen Pot von $2, dann bieten wir mit einer Bet 3 zu 1, und die GTO-Strategie besteht darin, in 25% der Fälle, in denen wir betten, zu bluffen. Unser Gegner wird einem Call und einem Fold indifferent gegenüberstehen. Demzufolge wissen wir, unser Gegner kann uns bei Abweichung von dieser Strategie ausbeuten, indem er entweder immer callt, wenn wir öfter bluffen, oder immer foldet, wenn wir seltener bluffen.
Andersherum gesehen bietet uns der Pot 2 zu 1 für unsere Bluffs. Wenn unser Gegner in 2/3 aller Fälle callt, spielt es also keine Rolle, ob wir betten oder checken. Das ist die GTO-Strategie unseres Gegners. Wenn er davon abweicht, können wir das ausnutzen, indem wir immer bluffen, wenn er seltener callt, oder nie bluffen, wenn er öfter callt.
Weicht unser Gegner im vorigen Beispiel von der GTO-Strategie ab, dann hat die optimal exploitive Strategie, entweder immer zu folden, oder immer zu callen, einen höheren Erwartungswert als alle exploitive Strategien, nach denen man seltener als zu 100% checkt oder blufft. Schwache Gegner sind nicht nur deshalb schwach, weil man so oft exploitive Strategien anwenden kann, sondern auch weil man stark von den Indifferenzpunkten abweichen kann, ohne dass sie sich anpassen und man selbst ausgebeutet wird.
Nicht alle GTO-Entscheidungen basieren auf der Kenntnis des Indifferenzpunkts. Nehmen wir beispielsweise an, wir spielen eine Variante Stein-Schere-Papier, in der es eine vierte Option gibt, nämlich Dynamit, das alles schlägt. Die GTO-Strategie besteht darin, ausschließlich Dynamit zu wählen. Der Gegner könnte jedoch trotzdem eine dominierte Strategie anwenden, indem er Papier, Schere oder Stein wählt. Eine ähnliche Situation gibt es bei Hold’em, wenn die Nuts einen so großen Anteil der möglichen Hände ausmachen. Man ist nicht in der Lage, oft genug zu bluffen, um den Gegner indifferent bezüglich eines Calls oder eines Folds zu lassen.
Während eine GTO-Strategie nie ausgebeutet werden, und daher bei Hold’em nie eine Verluststrategie darstellen kann (wenn es keinen Rake gibt), können die Gegner weiterhin dominierte Strategie-Entscheidungen treffen, die sie verlieren (und Sie gewinnen) lassen. Die GTO-Strategien sind bei Hold’em oft suboptimal, die Perspektive einer „unbesiegbaren Strategie“ ist aber für Schüler der Spieltheorie hochinteressant, insbesondere in den höchsten Limits.
Ein guter Gegner ist letztlich nur gut, weil er weniger und/oder kleinere ausnutzbare Schwächen hat als ein schwacher Gegner, und weil er besser in der Lage ist, gegnerische Abweichungen von der GTO-Strategie auszubeuten. Ein sehr harter Gegner besitzt eine extrem hohe Fähigkeit, dynamisch zu spielen. Wählt man eine reine Stein-Strategie, dann wird er das schnell erkennen und nur Papier wählen usw. Solche Spieler erkennen schnell Trends im gegnerischen Spiel oder treffen sogar Annahmen, die es ihnen erlauben, Nicht-GTO-Strategien oft und mit großer Genauigkeit auszunutzen.
Selbst die stärksten Gegner haben exploitive (und damit potentiell exploitable) Strategien in ihrem Repertoire, und Hold’em ist letztlich ein Spiel mit unvollständiger Information. Spielt man gegen einen sehr starken Gegner, von dem man weiß, er wendet eine Strategie an, die analog zu 33% Papier, 20% Schere und 47% Stein ist, dann wäre es dumm zu versuchen, eine bloße Papier-Strategie anzuwenden. Nach Definition ist der Gegner sehr gut und wird sich daher schnell anpassen, um einen auszubeuten. Durch die Kenntnis der Indifferenzpunkte und durch kleine Abweichungen davon, kann man trotzdem exploitive spielen. Selbst die härtesten Gegner können nicht hellsehen. Wenn man eine exploitive Strategie von 40% Papier, 30% Schere und 30% Stein wählt, wie sollen sie das wissen?
Bryce Paradis und Douglas Zare
Dieser Artikel erschien auf PokerOlymp am 24.02.2008.