立即玩

Maglaro ng Poker Online at Manalo ng Totoong Pera.

从博弈论的角度分析诈唬(1)：什么情况下该诈唬从博弈论的角度分析诈唬(1)：什么情况下该诈唬这篇文章的主要内容• 数学背景 • 最佳策略 • 纳什均衡点诈唬是德州扑克游戏的重要组成部分，每一个优秀

德州扑克德扑高级养成德州扑克德扑高级养成

从博弈论的角度分析诈唬(1)：什么情况下该诈唬

这篇文章的主要内容• 数学背景

• 最佳策略

• 纳什均衡点

诈唬是德州扑克游戏的重要组成部分，每一个优秀的玩家都应该牢记。从不诈唬或太频繁诈唬，对一个德州扑克玩家来说都是巨大的错误。如何找到适当的平衡点？什么时候诈唬才是理想的选择？什么时候，以什么样的频率对某些玩家诈唬才能打出有收益的扑克呢？

这篇文章会涉及到诈唬的数学背景，并利用博弈论阐述一些策略。

我应该诈唬吗？你正处在河牌圈，牌面是6♠9♥K♠A♦5♣。

你确定对手有一手成牌。从他的行动你认为他可能有AA，KK或AK。你的牌是J♠10♠。

你听牌失败。底池是$100，你和对手还各剩$100，你先行动。这时过牌你就输了。(如果对手也过牌，你会输掉摊牌；如果对手下注，你也没足够的钱去诈唬他。）

假设对手读出了你的牌，在河牌之前，他猜到你在听牌。为了简单起见，我们假设他有80%的概率认为你听同花或卡顺失败，另外20%的概率认为你有87，在河牌击中顺子。

如果你有87，击中顺子，你应该价值下注，可惜你没有。你有两个选择：过牌放弃，或是尝试诈唬拿下底池。假设你在诈唬时，会全下所有$100，也就是一个底池，你的诈唬频率应该是多少？

这个问题的答案是什么？

要回答这个问题，我们需要利用一些数学工具。别担心，不会太复杂，你只需一点代数知识和一些常识。差点忘了，还有博弈论，但是只会用到很常识的部分。

把问题转化为数学我们会用到一些符号。P代表底池大小，B代表下注大小。q代表对手认为你会赢这手牌的概率。在我们的例子中，P=$100，B=$100，q=0.20.如果你对20%这个数字不满意，可以换掉，计算方法是一样的。同样，你也可以改变底池大小和下注大小。

我们需要用符号表示诈唬频率和对手的跟注频率。x代表诈唬赔率，y代表跟注赔率。如果我们有30%的概率诈唬(x = 0.3)，从长期来看我们诈唬的频率就是30%。同样，y表示对手会跟注我们下注的频率。

所以我们初始的问题变成了求x的最佳值。

期望回报和纯策略首先，追溯到最初始的问题。我们打扑克的目标是什么？赢钱。准确地说，是赢尽可能多的钱。在做决定的时候，我们要问问自己，哪个行动会有最大的期望回报？

在这个例子中，如果你有优胜牌，你会做价值下注。在你下注以后，对手可能跟注(y)，也可能弃牌(1 – y)。

当他跟注时，你会赢下现有的底池，再加上对手跟注的钱，也就是P + B。当他弃牌时，你只会赢得现有的底池，也就是P。(现有底池通常指你下注之前的底池大小。) 因此，如果你有一手获胜牌，你的期望回报Ew (w代表获胜winning)会是

Ew = y(P + B) + (1 – y)P

如果你的牌会输(听牌失败），情况就会变得更复杂。你有可能诈唬(x)，也可能过牌放弃(1 – x)。

当你选择诈唬时，对手还是有可能跟注(y)，或弃牌(1 – y)。当他跟注时，你会损失这次下注，所以你的净回报是负的，也就是–B。当他弃牌时，你会赢得现有底池，也就是P。所以当你诈唬时，你的期望回报会由这两部分组成：

(1 – y)P – yB

如果你选择过牌(放弃这手牌)，你赢不到一分钱，所以这种情况下你的期望回报是0。

综上所述，当你的牌会输时，你的预期回报 El (l代表失败losing)会是

El = (1 – x)0 + x(1 – y)P – yB

由于第一部分是0，我们可以直接忽略，公式变为：

El = x(1 – y)P – yB

假设你知道对手从不跟注(y = 0)，你的期望回报公式还可以简化为：

El = xP

要最大化期望回报，你必须让x = 1，也就是说你应该每次都诈唬。

但是，如果对手总是跟注(y = 1)，你的期望回报公式会变为：

El= – xB

在这种情况下，为了最大化期望回报，你必须让x = 0，这代表你永远不要诈唬。(所以明白了吗？永远不要诈唬一个跟注站。)

以上计算是知道对手在两种特殊情况下会采取什么策略，然后得出的应对结果，但是这两种情况非常极端，所以这个策略被称为纯策略。在真实的扑克游戏中，对手们会更加飘忽不定，他会有一定的频率跟注你的下注(y不会是0也不会是1)。他采取的会是混合策略。

最佳策略对手可以选择一个跟注频率y，让你无论使用什么策略(也就是无论x是多少)，期望回报都不会改变。我们用yopt表示这个跟注频率(在某种程度来看，yopt就是y的最佳值。)

yopt很容易计算，下一篇文章会讲。

yopt = P/(P + B)

在我们的例子中，P = B = $100，所以yopt = 1/2。如果对手刚好有一半的机会跟注，你是打不过他的。如果对手根据y = yopt的策略打牌，你的期望回报将会是

El= xPB/(P + B) – PB/(P + B) = 0

(就是把yopt带入求El的公式)

这时，无论你选择什么策略(无论x是多少)，你的期望回报都不会升高或降低。

有趣的是yopt只取决于底池和下注的大小，不受q（q代表对手认为你会赢这手牌的概率）的影响。这表明yopt并不总是y的最佳值。例如当 q=1时，也就是你的对手确定你有优胜牌，这时他不会有一半的跟注频率，因为他根本不会跟注。他会使用y=0的策略。

后面我们还会说，yopt在什么情况下才是最佳值。

同样，你也可以选择一个x，让对手无论选择什么样的策略(无论y是多少)，他的期望回报都一样。我们用xopt表示这个特殊的x。但是，求xopt的值会更复杂一些，它的公式是

xopt = qB/(1 – q)(P + B)

如果你经常用会输的牌诈唬，对手的期望回报为

Eop = (1 – q)P – qPB/(P + B)

这个公式里没有y，所以对手的期望回报不会改变。

在我们的例子中P = B = $100，q = 0.2，所以xopt = 1/8。如果你有1/8的概率诈唬，对手就赢不了你，就算他非常善于观察，了解你的策略(知道x = xopt)。如果你的诈唬频率高于或低于1/8，善于观察的对手就会剥削你策略上的漏洞。所以当你面对非常优秀的对手时，xopt可以确保你的策略是最佳的。

优秀的对手用什么频率跟注你的下注？yopt就是答案。如果你根据x = xopt的策略打牌，他选择任何打法都不能提高或降低期望回报。如果对手不使用y = yopt的策略打牌，你可以观察他的漏洞，利用他的错误，选择最佳的回应剥削。

只有当他的y = yopt时，你是无法剥削他的，这时无论使用怎样的打法，你的期望回报都不会改变。

记住，如果你不使用xopt的策略，对手也会调整打法来剥削你的漏洞。

现在你知道xopt和yopt在什么时候情况下才是最佳值了吧：当对手无法剥削你时。在博弈论中，这两个策略(xopt, yopt )被称为纳什均衡点。这在博弈论和经济学中都是非常重要的概念。(没错，就是电影《美丽心灵》中的纳什，1994年诺贝尔经济学奖的获得者)。现在你知道它在扑克中也扮演着重要的角色了吧。

接下文：从博弈论的角度分析诈唬(2)：特殊情况中的期望回报：https://www.moshike.com/a/3601.html