超级人类科技 再下一城,AI玩德州扑克击败人类,这次难度更大

超级人类科技

继围棋界被人工智能(AI)统治后,人类的另一个竞技领域又将面临人工智能的威胁。近期,一款名为Pluribus的扑克机器人成功击败了多名顶尖的德州扑克选手。

Pluribus与职业选手的比赛部分过程

7月11日,美国卡内基·梅隆大学宣布,该校和脸书公司合作开发的人工智能Pluribus在六人桌德州扑克比赛中击败多名世界顶尖选手,成为机器在多人游戏中战胜人类的一个里程碑。

超级人类科技 再下一城,AI玩德州扑克击败人类,这次难度更大

根据美国媒体报道,此次人机对决的测试是在6月份进行的,采用的是六人牌局,玩的无限制德州扑克,这也是最流行的一种玩法,

根据The Verge的报道,在历经12天,经过10000手的对局后,Pluribus在两种模式的比赛中都取得最终胜利,共击败了12名人类职业选手。一种模式是AI 5名人类玩家进行比赛;另一种是五个不同AI玩家 1位人类玩家,五名AI玩家互不协作。

Over 12 days and 10,000 hands, the AI system named Pluribus faced off against 12 pros in two different settings. In one, the AI played alongside five human players; in the other, five versions of the AI played with one human player (the computer programs were unable to collaborate in this scenario).

一位名为Trevor Savage的玩家参加了此次比赛,是一位有15年比赛经验的职业选手。他在赛后表示,Pluribus是个基本完美和能够获胜的玩家,它综合运用了高投注获胜玩家们都会采用的战术。

而另一位曾在世界扑克系列赛六夺冠军的选手Chris Ferguson也坦言“Pluribus是个非常难对付的对手,每一手的对局都很难摸清它。”

Pluribus靠什么取胜?

据报道,Pluribus在比赛中非常擅长迷惑对手。此外,它严密的连贯性以及在小注局中获利的方法也受到了对局专业玩家的赞赏。

例如常规打法是在牌最好的时候押注,但这很快会被对手识破,因此它会“耍点心眼”,不按常理出牌。分析显示,它会做出一些多数人类玩家都认为不好的决策,这在客观上也迷惑了对手。

超级人类科技 再下一城,AI玩德州扑克击败人类,这次难度更大

Pluribus联合开发者、脸谱AI研究人员Noam Brown说我们通常认为虚张声势是人类特有的行为,是一种需要依靠撒谎和欺骗的策略。但是这种艺术依然可以被归结为一些算法最优策略。

他说:“人工智能并不把虚张声势看作是一种欺骗行为,它只专注在特定形式下做出能让自己赢得最多的决定。我所展示的是AI不仅可以采取虚张声势、故弄玄虚的策略,而且比人类做得更好。”

\”The AI doesn\’t see bluffing as deceptive. It just sees the decision that will make it the most money in that particular situation,” he says. “What we show is that an AI can bluff, and it can bluff better than any human.\”

“现在可以肯定地说,我们已经处于一个超人类的水平,这是一个不会改变的事实。”

\”It\’s safe to saywe\’re at asuperhumanlevel and that\’s not going to change.\”

玩德州扑克与围棋有什么区别?

CNN在报道中解释道,让AI独孤求败的国际象棋和围棋是一种典型的两人对局比赛,是一种基于“完全信息”的比赛,因为比赛双方获得的信息都是一样的,且对于双方都是可见的。

超级人类科技 再下一城,AI玩德州扑克击败人类,这次难度更大

但是在扑克游戏里,你不可能知晓对手掌握的所有信息,所以这更难去预测对手的下一步行动,而这一难度会随着玩家的增多而提高,这些因素导致德州扑克对电脑而言是个要困难得多的比赛。

它是如何运算的?

Pluribus使用一种类似DeepMind公司人工智能围棋玩家的的强化学习形式,从零开始自学。它从随机地玩扑克开始,计算出哪个动作赢得更多而改进。每手牌结束后,它都会回顾自己的玩法,并检查如果采取不同的选项,看它是否能赚到更多的钱。如果替代方案能带来更好的结果,那么未来更有可能选择这一方案。

通过与自己对弈数万亿张牌,Pluribus创造了一种基本策略,可以在比赛中使用。在每个决策点,它都会将游戏的状态与自己的蓝图进行比较,并提前搜索一些步骤,然后决定是否可以改进它。由于它自学了在没有人类输入的情况下玩游戏,人工智能获得一些人类玩家通常不会使用的扑克策略。

根据The Verge的报道,为了在六人牌局中处理更加复杂的形势,研发人员想出另一个有效的方法让AI在对局中能够预测牌局,并以此来决定下一步该怎么做,这是一种搜索功能机制。

这种机制不让AI去预测对手从下一步直到比赛结束后的所有可能,如果这么做的话,几步之后算法就会变得极其复杂。它采取了一种更加精减的方式,仅仅计算预测接下来两三步的牌局。因为在德州扑克中短期的洞察力更加重要。

值得一提的是,通过云服务器,研究人员前期训练这个AI系统的成本只有150美元,这让它与动辄数十万美元的使用最先进技术的系统相比,更加经济。

有什么现实意义

如何让AI在复杂环境中处理不完全信息?联合开发者Brown认为,Pluribus为这一问题提供了一个基准,无论在游戏还是现实的环境中。

超级人类科技 再下一城,AI玩德州扑克击败人类,这次难度更大

研究人员指出,与国际象棋和围棋相比,德州扑克的挑战更大。德州扑克比赛中每方都不知道对手的牌,对手还可能在押注时虚张声势,因此决策只能基于不完全信息,这与真实世界中的问题更接近。

在《科学》杂志的一篇相关论文里,Pluribus背后的科学家们表示人这次胜利是人工智能研究史上一个重要的里程碑。虽然机器学习在国际象棋、围棋以及电子游戏(例如星际争霸2,Dota)领域,已经达到超人类水平,但是六人局的无限制德州扑克,从某种程度而言是更高的难度基准。

超级人类科技 再下一城,AI玩德州扑克击败人类,这次难度更大

Brown还认为,Pluribus背后的技术最终将会被用于一些涉及多人和隐藏信息的应用中,想想从诈骗侦测到自动驾驶。

密歇根大学教授Michael Wellman也认为Pluribus的这次胜利是件大事。

他说“这是一个令人印象深刻的技术成就”,Pluribus经过AI的加强后,有可能应用到谈判、网络安全和军事战略中。

人工智能技术在快速发展,你认为人类还有哪些领域有可能被人工智能击败,又有哪些领域是人工智能永远替代不了的?欢迎留言讨论。

编辑:高启辉

中国日报(ID:chinadailywx)综合自The Verge,CNN,腾讯科技、新华网

声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。

发表回复

 
登陆后查看更多商品点击注册/登陆