首页科技快讯 “赌神”的武器：人工智能是如何征服扑克游戏的（二）

“赌神”的武器：人工智能是如何征服扑克游戏的（二）

来源：晰数塔互联网快讯时间：2022年05月24日 14:01

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，重点介绍国外的新技术、新观点、新风向。

编者按：对于德州扑克的职业选手来说，能成为赌神应该是自己的梦想了吧？但是怎么才能成为赌神呢？对这个问题感兴趣并且找到解决方案的，却是数学家与程序员。真正的高手都知道打牌要虚实结合。但到底怎么个虚实结合？应该多少是虚？多少是实？扑克的本质是什么？是靠运气还是技艺？不管扑克玩家自己有没有意识到，或者想不想知道，这种游戏的核心始终都是约翰·冯·诺依曼所揭示的最大化问题。文章来自编译，篇幅关系，我们分三部分刊出，此为第二部分。

划重点：

如果你跟 AI 玩成千上万手牌的话，最终赢的一定是它

顶级玩家把大部分的时间都花在研究可能出现的不同情况上

“赌神”的武器：人工智能是如何征服扑克游戏的（一）

AI 工具

Jason Koon 是 Seth Davies 的朋友，也是他玩扑克的导师，此人还是所谓的“博弈论最优”扑克最早和最忠实的采用者人之一。在为期三天的超级豪客锦标赛的第二天，我拜访了 Koon 价值数百万美元的豪宅。房子位于一个封闭社区内，而这个社区则位于一个更大的封闭社区内，毗邻杰克·尼克劳斯（Jack Nicklaus）设计的高尔夫球场。锦标赛的第 1 天，Koon 付了 250000 美元入场，四个小时后，他被淘汰了，但马上又支付了 250000 美元再度入局，结果他再次输掉了所有筹码。他后来发短信给我：“欢迎来到孤注一掷的锦标赛世界。只需要发挥出你的最好水平——最终还是可以扯平的。”

对 Koon 来说，扯平的形式是赢得的线下锦标赛奖金的总额超过了 3000 万美元（他说，至少跟来自拉斯维加斯与澳门的高额现金游戏一样多）。 Koon 开始认真玩牌的时间是 2006 年，当时身为田径队短跑运动员的他正在西弗吉尼亚卫斯理学院（West Virginia Wesleyan College）康复。玩牌让他过上了不错的生活，但很难在赌注最高的比赛中一直取胜。他说：“在 slover（特定问题求解器，此处特指德州扑克）出现之前，其实我是个相当平庸的玩家，但第二个 solver 出来后，我一头扑进了这个玩意儿，然后我的水平开始提高，提高得很快，很快很快。”

在放满了赢得的各种扑克锦标赛奖杯的家庭办公室里，Koon 转向他的电脑，在 PioSOLVER 上抽出来一手牌。在指定了玩家的筹码大小以及所坐位置可玩的手牌范围之后，他输入了所有玩家都能看到的三张随机的翻牌。一个 13×13 的网格上显示了其中一名玩家可能拿到的所有手牌。 Koon 把鼠标悬停在方格上，寻找不同花色的 A 与 Q。slover 告诉 Koon 这次 39% 的时间都应该过牌；在 51% 的情况下，下注的额度应该相当于底池大小的 30%；其余时间下注的额度应该是底池的 70%。这种冯·诺伊曼式的混合策略技能让他的利润最大化，也能掩饰他的牌力。

多亏了 PioSOLVER 之类的工具，Koon 重新制定了游戏玩法，了解在不同情况下怎么下注才最有效。有时下点小注，比方说底池的五分之一甚至十分之一才比较理想；而在其他一些时候，下到底池的两到三倍大小这种重注才是正确的。而且，虽然优秀的扑克玩家一直都知道打牌需要虚实结合，但 slover 却为 Koon 提供了采用虚实结合更精确的频率，并且根据他手上拿着什么牌，它能确定出什么是采取诈唬策略最好和最差的一手牌。

Erik Seidel 是这项运动的职业选手，他从 1980 年代就开始学习扑克了，他告诉我，如果像 Koon 这样的玩家用今天的知识回到 15 年前的话，可以碾压那个时代最优秀的玩家。Seidel 说：“我还认为，玩牌的所有人都会认为他们是大鱼，”这是用扑克的暗语来形容水平很差的玩家，“现在这帮家伙弄出了很多非常奇怪但确实很有效的玩法，但是如果那时候玩牌的人看见他们的话，我想肯定天天晚上都会邀请他们这样的人去参加比赛的。”（编者注：容易上钩的大鱼）

在遇到比较弱的玩家时，Koon 有时候会故意不按理论上的完美扑克出牌，而是变本加厉地诈唬，或者当 AI 建议下注应该小点时下重注，好利用对手的错误。但在与最优秀的专业人士比赛时，他大多只会尽最大努力复制 slover 的决策——前提是记住人工智能首选的下注规模以及采用不同策略的频率。因为他知道，他自己的人类偏见会不知不觉地影响自己的决策，所以对于特定的一手牌，Koon 经常会随机选择 solver 的策略。他会低头瞥一眼手表上的秒针，或者看一看眼前的扑克筹码，把赌场标志的方向看成是钟面，好让他估算出从 1 到 100 之间的百分比。百分比越高，他采取的行动越激进。 “我会说：好吧，现在是 9 点钟的方向。所以应该是 75%。那就是相当激进的数字了。”在这种情况下，Koon 可能会为自己这手牌选择 solver 认可的下注的最大规模，而如果秒针指向 3 点钟方向，也就是 25% 的话，他可能就会选择过牌。

当然，采用最优策略并不能保证 Koon 不管拿什么样的牌都能赢。不过，根据数学的理论，如果玩的次数足够多的话，最终的结果应该不会亏——而且实际上他会做得比不亏要好得多，这要取决于他对手的策略与理论上的完美玩法相差多远。 Koon 说，如果你跟 slover 玩成千上万手牌的话，“我敢保证，最终赢的一定是它。”

不过 Koon 很快就接着指出，就算有了 solver 的完美策略，扑克要想玩好仍然非常困难。底池很大的情况下输赢带来的情绪波动，以及 12 小时的车轮战所带来的疲劳，这些挑战仍然一如既往，但现在，顶级玩家必须在牌桌以外投入大量工作才能取得成功。就像大多数的顶级职业选手一样，Koon 每周都会把大部分的时间都花在研究可能出现的不同情况上，试图理解这个程序选择背后的逻辑。他说：“solver 没法告诉你为什么自己要做所做的事情——它就是这么做了。所以现在得由扑克玩家来找出原因。”

最优秀的玩家能够对 AI 的策略进行逆向工程，并建立适用于跟他们正在研究的手牌与情况相似的启发法。即便如此，他们要处理的信息量依然很大。当我把自己的想法告诉 Koon，说这就像翻来覆去地看一本 10000 页的书，好尽可能多地记住它时，他马上就纠正了我：“是100000 页的书。这种游戏太难了。”

事实上，Koon 要利用的数据规模甚至比这还要大。他租用了近 200 TB 的云存储空间来存储数据，也就是那些自开始跟 solver 合作以来他开发出来的游戏树数据。虽然跟人面对面玩牌的时候没法获取牌桌上的所有信息，但这种限制未必适用于在线玩的扑克。自动化的机器人，尤其是在赌注较低的扑克游戏中的自动机器人，在 solver 兴起之前就一直是互联网扑克的一个问题，但现在在线上玩牌的人可以用另一个屏幕去寻找 AI 策略来规避规则，去下出最优策略。 Koon 说：“任何时候，只要有赌注够高，可以赢很多钱，而且有可能可以用来行善的设备的话，人们就有办法把它变成作弊工具。”

Koon 倒不是特别担心自己在互联网上跟人比赛扑克的时候对方作弊，但其他的玩家就不那么确定了。职业牌手 Ryan Laplante 表示： “这就是我再也不玩在线比赛的主要原因，我是说真正的扑克比赛。”最近，作为世界扑克系列赛的一部分，在一场入场费为 7000 美元的在线锦标赛里， Laplante 说，在 100 位左右的参赛者当中，他就至少认出了 4 个名字属于传闻被其他网站禁赛的玩家，因为他们使用了所谓的“实时助手”。Laplante 认为最大型的在线网站里面，有一些在比赛监管方面做得还是很好的，但他担心随着 solver 变得越来越普遍，权力的天平将继续转向那些靠作弊获得优势的人。

Laplante 说：“我唯一肯定的只有一件事，那就是情况很快会变得更糟。”