点击数:595

当地时间1月30日,在宾夕法尼亚州匹兹堡赌场里,人工智能(AI)在德扑单挑领域击败了人类顶级牌手这一事件惊动了整个德扑界。

Dong kim:人机大战,我从AI身上也学到了很多

从这张图上我们可以看出:

第一天

 人类没赢 

第二天

 AI没输 

第三四五六七八天

 跟前面的结果一样 

AI的到来,让长年征战线上的职业玩家产生了后顾之忧,不过很多人认为AI虽然在单挑中强势,但在人类擅长的六人桌、九人桌中未必能战胜

更有人提出人类军团的实力是否值得质疑等等。

2月19日,德研社底牌扑克人社区三家中国权威的扑克机构对 DongKim 进行了一次深度采访

Dong kim:人机大战,我从AI身上也学到了很多

Dong kim:人机大战,我从AI身上也学到了很多

28岁的 Dong Kim 是全世界最顶尖的的职业牌手之一,早在2015年战胜过AI的前身Claudico

Dong kim:人机大战,我从AI身上也学到了很多

采访摘要

 

关于完败的热议,kim这样回应:

人类还是有机会赢AI的。

关于策略的实施,kim这样讲解:

我相对于其他玩家而言的优势在于,我有上次与AI比赛的经验。我知道会碰到一些什么,哪些策略会奏效。有那么几天,我不是很赞同队伍里的打法,也没有实施。所以我没有输很多。

关于AI的自我修复,kim这样分析:

绝对不是CMU找到的漏洞,他们完全不懂扑克,是AI在“进化”

关于AI的策略,kim这样解读:

AI试图实现的是均衡策略(GTO),但是实际上他不并全是GTO。CMU故意引导了它不GTO,而是“safe exploitation”(安全剥削策略),意味着如果他发现了漏洞,他就会利用,而当我们发现的时候,他就会回到GTO策略。

面对AI的高速发展,kim这样谈到:

我们需要让机器学会替我们去做决定,即使对于我的职业不利。作为职业牌手,我并没有给世界带来太多的价值,但是这是我力所能及的一件。

kim用实力回应:

在两年里,如果AI唯一的工作就是战胜世界上最好的玩家,而我的工作是战胜这个AI。我觉得我可以跟AI保持差不多。

Kim郑重表示:

接下来的一个月的时间(2017年3月-2017年4月),我将在亚洲出没,如果有人感兴趣,我将有偿分享一些与AI对战时的经历和牌谱思路给大家,并跟大家深入探讨提升HU的方法。

以下是采访详细内容

Q:此次挑战是如何开始的?你们队伍又是如何挑选的呢?

Kim:首先CMU(卡耐基梅隆大学)联系了Jason,Les和我,想要再比赛一次。而其他的人像Doug和Bjorn他们有事无法参与。

 

随后我们给了教授一份玩家名单,里面是一些我们认为够格的职业选手以及他们的背景介绍,让他去决定。

 

我们很高兴最后教授挑选了Jimmy Chou和Daniel McAulay最后组成了4人队伍,因为我认识他们很久了,彼此相处的很好。

Dong kim:人机大战,我从AI身上也学到了很多

Q:在人机大战期间,你们每天的比赛是怎么样的流程?每天结束后你们四人是否会共同探讨应对策略?效果如何?

Kim:是的(会商讨),通常来说,与其他人分享自己的策略并不是最好的办法,特别是在单挑领域里,再加上本次特殊的赛制还会有利益冲突(这次的奖金结构是基于你比最大的输家多赢了多少),但因为我们都是朋友,所以我们决定一起合作对抗AI,而非各自为战。

而讨论这些我们打过的手牌通常非常有趣的,因为楼上/下的两个人各自打着完全镜像的手牌:讨论AI如何打每手牌,并且了解策略是否有效非常好。

Dong kim:人机大战,我从AI身上也学到了很多

起初,我们早上9点一起讨论昨日的应对策略,11am-7pm比赛,中途有段就餐时间。

但考虑到午餐时间和实验的公平性,我们每个人必须完成同样的手牌数,所以直到最后一人打完最后一手牌,其他三人才能午休。导致了经常出现三个人等一个人的状况,一等就是一两个小时。

 

这是非常不效率的,于是我们决定跳过午休直接打完。但这对策略而言并没有好处,因为我们没有办法在中途讨论策略的效果了。

平均每天至少打10小时比赛,2小时的学习,并且只能吃1、2顿,直到快结束的时候,才有所改变。

由于当时我们一直在输,也失去了继续学习的主要动力,毕竟输很多和输更多没什么太大差别,导致有些人没有之前那么勤奋了。

但就我个人而言,直到最后那几天我始终是盈利的,所以我还是继续学习着。

Q:你已经参加过两次人机大战,第一次战胜了Claudico,这一次虽然输了,但你是四个代表中成绩最好的,之前的对战经验是否帮助到你这次?

Kim:绝对是的,在2015年Claudico最后结束的时候,我们和队友们分享了发生的一切,包括他们漏洞的秘密。

今年我也和队伍们讨论了这个,但是我不知道他们听了多少进去。我知道战胜这个东西的关键在于抽象的下注量。

所以我的经验是非常有帮助的,对此我毫无疑问。我比其他人会有一些优势。

Q:你觉得本次比赛打120K手牌的数量是否合适?

Kim:还好,但是在学术界,120k手牌并不是非常多。在挑战期间他们告诉我们,计算机在三周内打了上百亿手牌,而跟我们只打120k手牌。

这是一个什么样的AI?

Q:你对抗过的两个AI,Claudico和Libratus,最大的区别在哪里?

Kim:当然有很大的区别,Claudico实际上是非常优秀的AI,尽管人们认为很糟糕。实际上并非如此,我觉得他可以战胜95%的单挑玩家。只是在执行上有些漏洞,但并不是非常难对付的那种,他会过多弃掉一些牌,或者诈唬不足。

虽然Libratus也会这么做,但是区别在于许多时候更合理了,会让我们处于更难受的局面。他弃牌更少了,下注更多了,加注也更多了,下注也更大了。总体而言是一个更加优秀的AI。

从AI发展的角度而言,我了解一些,他们是重新设计了算法,没有用到任何Claudico的东西,他们没有用Claudico去测试Libratus,但是他们用Titanium9去测试了Libratus。Titanium9大概赢Claudico 9bb/百手,而Libratus大概赢Titanium9 5-6bb/百手。你不能简单把这两个数相加,其中有很多相关的因素。

Claudico使用对应策略,被称为终局结算程序(end game solver),也就是AI停止的地方,重新精确映射游戏树,Libratus也有这个,但是在转牌就开始了,简而言之其实有三种模式,或者称之为三块:原始的策略树,自适应系统,也就是学习我们是怎么打的,并且重新计算策略,用不同的方式去打牌。

Q:你刚说上次战胜Claudico的关键是抽象下注量,那么这次还管用吗?

 

Kim:这个AI并不是一个无限注德州AI,实际上是个多种限注AI。

所以抽象的下注量就是他们设置了参数,引导AI调整至7-10个下注量。抽象的下注量就是介于这些之中的。比如AI知道1倍底池下注是什么,1.5倍底池下注是什么。但是他不知道如何面对1.25倍底池下注。所以这里是AI最大的问题。这也是我一直尝试经常去攻击的地方。

我不会把他当作一个真实的人,我并不确定他会如何应对,但是他会把游戏树按照大小对应,从而错误计算游戏树。这就是下注量的抽象化。在AI知道的下注量之间。,我都不会去用。

Q:意味着你可以通过模糊的下注量去迷惑它。

 

Kim:对的,就是这样。实际上战术有两种,

一是用非常疯狂的加注量。

但是这显然不是一个好策略,AI不会出现问题,因为AI知道这样并不是很好。比如你在赌场里玩,而有人突然加注20个大盲,如果底池里没什么的话,我们知道这非常糟糕。

第二就是这个抽象的下注大小,因为尽管AI很优秀但是很难面面俱到。

有趣的是,随着比赛的进行,他们不断引入新的下注大小。我知道他懂得25%底池下注,也经常这么做。但是在第五天和第六天开始使用26%底池下注。同时也学会了24%,23%底池下注。

因为人类一直这么做,所以他学会了这些下注大小。他会觉得这样不错,就这么做。

其实想想还是挺恐怖的,AI在用一个你曾经使用过的下注大小。

Q:正如我们从其他媒体所获悉的,AI每天都在进化,并且修复漏洞,你的想法是怎么样的?能给我们一些例子么?

 

Kim:我认为这正是我们完败的的主要原因。我们首先研究出一套策略,然后观察AI当时的策略,进行剥削。

在研究了一段时间之后,我们会回来实施。后来我们发现自己本应在对手弃牌很多的地方诈唬,或者在对手永远不弃牌的地方价值下注,所以我们的策略实施的并不出色。

我不得不承认,每个我找到的漏洞都在一天内被补丁修复了。他们修复了漏洞,或者甚至连CMU的开发人员都不清楚,要么是AI自我修复了漏洞(这是我们看来最有可能的),要么这只是样本大小和波动的原因。

Q:但肯定不是CMU找到的漏洞,对吗?

 

Kim:对,他们完全不懂扑克。这是最令人印象深刻的地方,他们完全不懂扑克。

Q:网上流传的一手经典牌局,在河牌出花面时你用顺子抓了AI一个近两倍底池的河牌诈唬,当时你的思考过程是怎样的?在此次对战过程中,还有哪些让你印象深刻的牌局?

 

Kim:是的,如果你一直关注的话,会发现AI有很多巨大的下注让我们非常难以抉择。

你说的是那手牌比较特别,因为当有人河牌下注2倍底池时,我会想这里最差的价值下注牌是什么,对于人和AI而言,他们都会知道他们的手牌相对底池而言有多少价值,所以他们会选择要么过牌-加注,要么下注一个价值范围。比如AI永远不会用一个中对,期望我用更差的牌跟注。

而在这里,一个顺子以上的牌力,坚果顺,小同花或者更好的牌,考虑到这点,我想到手中有同花牌,所以AI就会有比较小的概率有同花,于是决定跟注。

我觉得如果我有对子的话,对手就更少会用对子进行诈唬。如果你对手有对子的话,他们可能会在某些时候过牌。所以这里更像是在诈唬。

这里我觉得要么就是一个比小花更好的牌,或者就是纯空气。我觉得这里不太会有更差的顺子,三条和两对。这就是我的思考过程。

Dong kim:人机大战,我从AI身上也学到了很多

Q:你刚才提到了AI会在小底池下一个重注,这在人类游戏里并不常见。AI可能认为这是他最佳的策略,也会混入一些诈唬。你认为这是一个突破点么?

 

Kim:我并不这么认为,我觉得真正意义上的平衡打法会包括这种情况,但是会非常棘手。只有当人类认为这是个非常糟糕的策略时,才会成为突破点。

 

比如说,当AI的策略被人类认为非常糟糕的时候,国际象棋里,或者围棋里,有些开局被人类看来非常糟糕,但是AI认为不错。开发人员因为不是职业国际象棋/围棋选手,所以他们信任AI。

说实话,CMU这些天才(AI研发人员)打牌非常糟糕,但是他们相信AI的算法。

 

我觉得这样很好,对于人类玩家而言,他们必须非常精确才能实现这样的打法。他们如果稍微下注过多或者过少,诈唬不足或者价值下注不足,那么这个策略就会变得非常糟糕。所以这一些都会回归到精准地执行力上。人类总是不如计算机精准。

Q:AI的每一个动作都要通过精密的推理、计算,你是否认可AI的采取的都是最佳策略?这种策略跟现在盛行的GTO策略有何不同?

Kim:我确实相信他能精准地执行策略但这并不一定是最好的策略。当讨论策略的时候,会有一些诈唬,一些价值下注,AI会完美地执行,而人类在实时处理的时候会忘记一些东西,或受情绪的影响所以不如AI完善。它会精准地执行策略。但是我不觉得他打得接近GTO或者说纳什均衡。

我跟CMU的人讨论过,他们觉得AI距离纳什均衡有差不多15-20bb/百手的偏移。当我听到这个数字的时候,我觉得比我想象中近了很多,而他们觉得他们应该更接近一点。

这是个非常复杂的游戏,AI试图实现的是均衡,也就是找到GTO,但是实际上他并不是GTO。CMU故意引导了他不GTO,而是“safe exploitation”(安全剥削策略),意味着如果他发现了一个漏洞,他就会利用,而当我们发现的时候,他就会回到GTO策略。

其次是当AI计算出海量策略时,他会有一个非常复杂的翻前策略。比如他会limp,也会min-raise,也有2.5x和3x的翻前加注。

 

他认为必须要做这3,4个动作。这里会占用非常大的计算资源,因为在游戏树里,最复杂的就是第一个动作,这里所有的后续动作开始开支散叶。这里最重要的就是最优地使用他们的计算资源和时间。

 

相对于有限的资源而言,在比赛中,引导AI去寻找合理而又不太复杂的策略。他们有非常多数量的手牌记录使用了2.5x的大小,他们认为这是最好的大小,但是仍然需要混合。

 

所以比起有一个巨大的游戏树,他们设置了参数只做2.5x加注。这里显然不GTO了。

Q:你觉得AI在6max或者FR桌上表现会如何?将来会如何?

 

Kim:我觉得AI想战胜多人桌非常难。对于限注德州而言,只有固定的下注大小,每条街只能有4次加注;而无限注德州扑克里,你可以每次最小加注,重复20次。所以在无限注德州里,游戏树会异常庞大。

这里控制了一些常规的变量,比如每次筹码量都被重置到200大盲。只有2个玩家。AI做的是会预测对手的行动。而在多人游戏里,首先每个人的筹码量不会被重置到同样的大小。这对AI而言是最大难题。

其次需要解决3人策略,然后4人策略等等。然而3人策略需要假设其他2个对手的行为。所以可能发生的情况是AI决定在翻前加注,SB做了一些错误的决定,BB也做了一些错误决定。

即使他们2人都做了一些糟糕的决定,也就是负期望。AI现在可能会因为这样错误计算,做出一些糟糕的决定。这里会占用非常巨大的计算量来完成计算,花费上百万美元来训练策略,完成AI。CMU的人会说多一个人AI会花更多的钱,花费更多时间。

 

人类还有机会在AI身上夺回胜利吗?

Q:此次人机大战你学到了一些新的策略吗?对抗人类玩家,这些策略有效么?

 

Kim:有的,我还没有机会深入去学习发生的一切。在AI挑战结束之后,我想休息一段时间,打会牌,也许下周我会去深入了解一下所有的一切。

但是我计划里已经有了一些想要去了解的方向。成为职业扑克选手就包括了,从你见过的策略里选择应用在自己的游戏中,并不意味着要使用所有的。

在深入学习了之后,我有自己的打法。找出那些东西,还是很令人兴奋。

Q:对抗AI和对抗人类顶尖选手你认为最大的区别是什么?

 

Kim:最大的区别是AI的执行力非常强,人类不同,比如说,我们假设桌上有3张方块,第4张牌还是方块,河牌是空白。那么桌上一共四张方块。大多数玩家不会用除了方块A或者别的坚果同花在单张花面下重注,而AI会诈唬,我也见到了。

AI在翻牌下重注,我听花跟注,转牌继续重注,我成花。这里非常奇怪,因为人类不会这么做。AI在会在河牌下注非常大,我记得是用空气全下而人类不会这么做。

Q:你认为人类还有机会赢AI么?

 

Kim:我相信会有机会的,但我不能保证能战胜,因为我的队伍表现糟糕。从我的角度看来,如果所有东西都是最优的,我还可以使用平时惯用的软件,我觉得自己的胜率会提高。

Q:如果人类还要和AI对战,你有什么想法么?建议?我觉得你刚才提到了一些,还有什么么?

 

Kim:我觉得会更加难以获得胜利,当我回答上个问题时,是假设我们再次与Libratus对战。AI和你新买的IPHONE很像,或者新的笔记本,每年都会有所升级,不光是升级更好,也便宜了。CMU和IBM战胜了Kasparov的设备价值百万,甚至十倍。但是现在也许一台IPHONE就可以战胜Kasparov了。

20年并不是一个很长的时间,而在两年里,如果他们的唯一工作就是战胜世界上最好的玩家,而我的工作是战胜这个AI。我觉得我可以跟AI保持差不多。

(追问:如果你重新组队的话,你会选谁?)

 

Kim:这很难说,因为这些人都是我的好友。我很想看到Doug Polk,他不仅是我多年的好友和导师,目前他正致力于制作一些资料而没有打太多德州扑克。尽管结果如此,我并不介意和这些人再次合作。我觉得很多原因是因为我们不能使用习惯的工具。

我相对于其他玩家而言的优势在于,我有上次与AI比赛的经验。我知道会碰到一些什么,哪些策略会奏效。有那么几天,我不是很赞同队伍里的打法。

(追问:不同意?)

 

Kim:对,那几天的策略是在BB再加注80%。可我不会这么做。所以他们输了很多。无论如何,如果我们尝试的话,我相信当时有可能战胜AI的。

AI战胜德州扑克的意义是什么?

Q:那你如何看待AI的高速发展呢?会让你害怕么?

 

KIM:不,事物总是在发展的。人类的错误是人们死亡的主要原因,比如车祸,飞机坠毁等等,当然也有别的错误。

我相信AI还是将来的趋势,我们需要让机器学习去替我们做决定,即使可能对于我的职业不是特别有利。

作为职业牌手,我并没有给世界带来太多的价值,但是这是我力所能及的一件。

Q:这次AI以非常大的优势战胜了人类,你觉得这会对线上扑克有什么影响?比如作弊?

 

Kim:我觉得完全不会有影响。

1:许多扑克室都有非常优秀的安全措施。单挑还是一个非常小众的游戏,打的人并不多。99%的人打得是多人游戏。所以我不会担心这个,因为AI没法在多人游戏里实施。

这个挑战也只是为了衡量他们在学术界和科学界里的标准。所以我不会担心这个。

2:CMU这次活动花费了数百万。所以我不觉得有人会想要开发一个新的AI(对抗线上玩家),而且CMU有全世界最优秀的人才参与这个项目,如果你想雇佣这些人,只会增加更多成本。

我觉得从计算机角度而言,虽然算法非常重要,但是处理性能更加重要。需要大量的时间。

唯一较大的负面担心可能是,职业玩家/休闲玩家玩牌的积极性可能会受到一些打击。但是,从我职业的观点看来,近10年来不用担心。

如果能推出一个低成本的AI,随着时间进步。到那时,即使作为职业扑克选手,我认为AI应用会更多应用在生活中,提升生活质量。而扑克可能会沉寂。

Kim教你如何学德扑

Q:还有最后一个问题,在中国越来越多的人想学习德州扑克,但却找不到门路,那你认为学习德州扑克最好的方式是什么?

Kim:业余玩家要想实现盈利我会建议从向那些盈利玩家提问开始。我相信在扑克里,平均法则是存在的。如果你想打得更好,那么就要成为更好的玩家。所以提问,可能有些人不会给你免费的信息,甚至是错误的信息。但是这是你自己的责任。

扑克圈里最重要的还是交流,打牌,不断尝试。当你到了更高的一个层次之后,就是开始研究和学习,复盘,收集信息,不断尝试。这是个很大的问题。但是对于初级玩家而言,我会建议去跟那些职业玩家多交流,看看谁在盈利,看看他们说什么,聊聊八卦,一起开心一下。

当我开始打扑克的时候,我没有一个扑克圈的朋友,但我现在非常热爱这个社群。

以上内容由

一个有趣的德扑社区——德研社

Dong kim:人机大战,我从AI身上也学到了很多

德研社 一个有研值的公众号
Dong kim:人机大战,我从AI身上也学到了很多
长按,识别二维码,加关注

 

 

没有logo的扑克人社区

 

以及

底牌

Dong kim:人机大战,我从AI身上也学到了很多

联合提供

 

 


0 条评论

发表评论

电子邮件地址不会被公开。