雷锋网4月6日消息,亚洲首度德州扑克人机大战——“冷扑大师V.S.中国龙之队”巅峰表演赛已经在海南生态软件园传奇智力运动馆开始,获胜方将获得200万人民币奖励。首日上半场,中国龙之队顺利按进度完成3600手牌,冷扑大师暂时领先中国龙之队14145筹码。因为每人单副手牌重置后的筹码量就有20000,所以这个差距非常的小。
冷扑大师和中国龙之队的介绍详见雷锋网报道:亚洲首度德州扑克人机对战即将开赌!| 附李开复演讲全文
比赛时间:4月6日~10日 上午8:00~13:00;下午16:00~21:00。现场画面将滞后2小时。
直播传送门:腾讯PC直播
看了上面的介绍我们知道,所谓的“冷扑大师”其实就是今年1月30日在匹兹堡战胜4位顶尖人类玩家的Libratus。那么同是人机对战,这次的看点在哪里呢?
1、玩家
昨天的发布会上,从主办方公开的龙之队资料看,很多队员都有深厚的计算机专业背景。比如:杜悦、许朝军、张淮都曾就读于清华的计算机系。用李开复的话说就是:
匹兹堡之战中被击败的职业棋手确实都是德扑的顶尖职业牌手,但他们并不懂计算机原理,而此次龙之队都是学霸,全部拥有计算机领域的从业经验,会让比赛还保留悬念。
2、名人赛与名人点评
据悉,4月6日至10日期间,表演赛将以转播形式邀请多位爱好扑克的名人,远程在各大直播平台展开系列精彩点评,海泉基金创始人胡海泉、著名专栏作家王小山、360人工智能研究院院长颜水成、乐视云CEO吴亚洲、追梦者基金创始人朱波、英诺基金创始人李竹等将担任专家评论员。
同时,据主办方介绍,在4月10日赛事最后一天晚间,将有包括李开复在内的36位来自科技圈、投资圈、媒体圈的名人大咖组成六支战队来挑战冷扑大师。
随着比赛的开始,除了昨天雷锋网报道的规则外,更加详细的规则也浮出水面:
1、分组
龙之队成员分别在两个房间与冷扑大师进行1V1比赛。
ROOM1(A队):杜悦、朱亚希、童舟;
ROOM2(B队):许朝军、张淮、王天健。
德州扑克一张台面至少2人,最多22人,一般有2-10个玩家参与。目前冷扑大师还无法参与多人的牌局,这多少让人感觉不那么刺激和热闹。
2、发牌
每个人类玩家同时打两手牌,比赛采用复式发牌,也就是说A队人类拿到的手牌,是B队电脑的手牌,A队电脑的手牌是B队人类的手牌。而且是随机分配到某个牌手,并非一一对应。
据雷锋网了解,冷扑大师采用完全数学的模型和算法,后台的计算机群计算量很大,所以人类同时打两手牌时间上也是来得及的。
3、筹码
在每一手牌开始,牌手和AI均有20000的筹码,小盲注100,大盲注200。一手牌打完之后,无论结果如何,下一手牌双方的筹码都要重置回20000。
目前冷扑大师还不能在双方不同筹码的情况下与人类比赛,因为这在模型的建立上要更加复杂,而这无疑是降低了人机对抗时AI的难度。
2016年3月,自从 AlphaGo 以4:1的成绩战胜职业九段李世乭以后,围棋AI的厉害为大众所熟知。不论是在专业的学术期刊还是社交网络,人们都展开了深入和广泛的讨论。但是对于德州扑克AI,大众还所知甚少。那么德州扑克AI与围棋AI有何不同?
AlphaGo是用大量的棋谱和自对弈做训练,而Libratus则是用随机生成的牌局(随机产生公共牌、底池筹码、玩家拿牌概率)和尝试性的动作带来的结果(在随机生成的输入情况下模拟玩家跟牌后的结果)作为训练数据。
“一对一无限注德州扑克”就是两个人玩的赌博游戏,因为事先会给每位玩家分发 2 张底牌,所以对方的“底牌信息”你是不知道的,对于计算机来说,就是在处理一种“非完整信息博弈”。而AlphaGo 玩围棋,对弈双方的信息是完整的、对称的,并没有隐藏的信息。
Facebook 人工智能研究院研究员田渊栋之前剖析过:
非完整信息博弈更难,体现在:
一方面是因为对于同样的客观状态,各个玩家看到的信息不同,因此增加了每个玩家状态空间的数目和决策的难度;
另一方面即使在同样的状态下,解非对称信息游戏所需要的内存也要比解对称信息要多得多,这个主要是对于对称信息博弈来说,只要记得当前局面并且向下推演找到比较好的策略就可以了;但对非对称信息博弈,只记得当前(不完整的)局面是不够的,即使盘面上的情况相同,但对手之前的各种招法会导致事实上局面不同,只有把它们全都罗列出来进行分析,才能保证想出的应对策略不被别人利用。
同时,非对称信息博弈的实用价值更大些。因为非对称信息博弈的应用范围非常广泛,涵括我们每天遇到的所有决策,上至国家战略,下至日常琐事,全都可以以同样的方法建模。
所以Libratus在德州扑克上AI取得了进步,是具有重要意义的。
据田渊栋近期在AI科技评论上所做的分享,CMU 的Libratus,也就是现在的冷扑大师有三个特点:
一是没有使用深度学习,而是用到了End-game solver。因为德扑一局时间比较短,几个回合就结束了,所以可以从下往上构建游戏树。这样的好处是,最下面节点游戏树的状态是比较容易算出来的,用这个反过来指导设计上面的游戏树。
二是像AlphaGo一样也采用了蒙特卡罗方法,标准的CFR(Counterfactual Regret Minimization)在每次迭代的时候,要把整个游戏树都搜一遍,这个对于稍微复杂一点的游戏来说是不可接受的。因为是指数级的复杂度,所以用蒙特卡罗方法,每次选一些节点去更新它上面的策略。
第三,一般来说我们在做游戏的时候往往会想到 怎么去利用对方的弱点,但其实不是这样的。更好的方法是,我尽量让别人发现我的弱点,然后据此我可以去改进它,变得越来越强。用术语来讲,就是去算一下对手的最优应对(Best response),让对手来利用你的弱点,然后用这个反过来提高自己的水平。
经过AlphaGo和Libratus分别在围棋和德扑领域几次三番对人类顶尖玩家形成碾压,也许很多人已经对人类获胜不报期望。本次赛前发布会上,龙之队队长杜悦告诉媒体,这次他们仅有10%的获胜希望。
其实或许不必如此悲观,Libratus在两个月前的匹兹堡人机对抗中并非赢的一帆风顺,甚至还被人类玩家发现了破绽。这点或许我们可以从近期著名扑克牌杂志Card Player 对 Libratus 的创始成员 Brown 博士的专访中窥见一二。此前雷锋网已将专访进行翻译,详情请戳:德州扑克算法幕后研发者CMU博士Brown专访:AI如何打败顶级人类牌手?
↑ 冷扑大师的创造者之一:Brown在现场(站着)
Card Player :
在人类玩家紧追比分,对战进入白热化的时候,你是不是在想对手可能已经找到了Libratus的弱点,还是说仍旧很有信心?
Brown:
第一周比赛快要结束时,双方几乎打成平局。人类选手也在第一周对Libratus会如何调整打法、它的强项在哪里等做出了一系列推测。他们没有和我详谈他们认为战局将会如何发展,但从我听到的来看,他们应该是想从数据中寻找Libratus的套路,分析它的弱点和优势。所以,大体上我不怎么担心。他们认为AI在一些方面有缺陷,但实际上并没有。
比如,在有一天的比赛中,他们80%都是再加注( three-betting ),因为从数据来看,他们认为AI 对特定的三倍打法( three-bet size)不太擅长。但我不认为那是缺陷,只是他们的数据中存在噪音。他们在比赛进程中获得的数据导致他们得出了这样的结论。
但他们确实看到了里面存在的一些问题。比如Libratus对特定的开局下注的大小对应不好。比赛前我们认为这不是什么大问题,但事实证明,这个弱点很要命。好在AI还留有一手——趁当天晚上对手睡觉的时候,AI就开始连续不断地进行训练,弥补自己的不足以防止对手以后再次利用这一缺陷。所以你看到,从第二周局势就开始转变了。
虽然Brown博士在采访中一开始回应Libratus没有弱点,但是后来又改口说Libratus对特定的开局下注的大小对应不好是个很要命的弱点。而就像前面介绍的,这次龙之队的成员大多为拥有计算机专业背景的学霸,但愿他们能够及早发现“冷扑大师”的弱点并善加利用,这多少将给我们增添几分人类获胜的希望。
从比赛规则的制定中可以看出,不管是要求1V1的单挑,还是单局手牌后的筹码重置,人类玩家都需要对AI “迁就”很多。所以即便是“冷扑大师”取得本次人机大赛的胜利,也不能说人工智能在德州扑克上完全战胜了人类。但是对于“非完整信息博弈”的人工智能研究课题而言,冷扑大师的胜利将有重大的意义。当然,比赛才刚刚开始,大奖花落谁家尚未可知,让我们拭目以待。