首页 科技资讯 网络

阿尔法狗被碾压!再进化版本AlphaGo Zero以100:0完胜

 

它为什么这么牛?

比前代作品更高级、更迅速,同时也更节能,虽然我们都知道这是一个“升级版本”理应做到的,但其拉开前代产品多个身位的实力还是令所有人震惊,那么它究竟是如何做到的呢?

DeepMind联合创始人兼CEO、AlphaGo之父戴密斯·哈萨比斯(Demis Hassabis)针对这一问题给出了答案。他指出,如果说,上一代的AlphaGo是通过分析人类目前留下了成千上万场对决和赛局来学习围棋的规律和制胜方法的话,那么使用了强化学习技术(reinforcement learning)的AlphaGo Zero则更加简单,它只需要知道游戏规则,就可以开始自我学习。

“它的学习方式就是自己和自己玩,从完全没有任何规律的随机游戏开始。在这个过程中,它很快就超过了人类水平,并最终以100:0的战绩击败了论文中提到的上一代AlphaGo。这项技术比上一代AlphaGo更强就在于他不受限于人类的知识。它可以从零开始自己学习,直到击败世界上最强的围棋选手:AlphaGo自己。”

阿尔法狗被碾压!再进化版本AlphaGo Zero以100:0完胜

AlphaGo Zero相较前代还有几点明显的差别:首先,AlphaGo Zero仅用棋盘上的黑白子作为输入,而前代则包括了小部分人工设计的特征输入。其次,AlphaGo Zero仅用了单一的神经网络。在此前的版本中,AlphaGo用到了“策略网络”来选择下一步棋的走法,以及使用“价值网络”来预测每一步棋后的赢家。而在新的版本中,这两个神经网络合二为一,从而让它能得到更高效的训练和评估。第三,AlphaGo Zero并不使用快速、随机的走子方法。在此前的版本中,AlphaGo用的是快速走子方法,来预测哪个玩家会从当前的局面中赢得比赛。相反,新版本依靠的是其高质量的神经网络来评估下棋的局势。

当然,AlphaGo Zero也并不是第一种采用自主运算的人工智能程序,事实上埃隆·马斯克旗下的非营利人工智能开发机构OpenAI也采用了类似技术来训练一种AI程序,而这个程序相信所有的《Dota2》玩家都不会陌生,它就是在今年TI7国际邀请赛当中首度亮相的OpenAI。并且在当场的solo较量当中,连续两局战胜了曾经的天才中单,来自乌克兰知名战队NAVI的Dendi。并且在赛后,OpenAI的老板马斯克还在自己的Twitter上怒刷一波存在,并认为OpenAI第一次在电竞上完胜世界顶级选手这件事,可比象棋围棋要复杂的多。

阿尔法狗被碾压!再进化版本AlphaGo Zero以100:0完胜

官方微博/微信

每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。

↑扫描二维码

想在手机上看科技资讯和科技八卦吗?

想第一时间看独家爆料和深度报道吗?

请关注TechWeb官方微信公众帐号:

1.用手机扫左侧二维码;

2.在添加朋友里,搜索关注TechWeb。

为您推荐

加载更多文章

手机游戏更多