新一代AlphaGo Zero让人类连做对手的资格都没有？

出品：科普中国

制作：缪子文化王轩

监制：中国科学院计算机网络信息中心

2017年10月19日，谷歌子公司DeepMind发布了AlphaGo的新版本。很多人知道AlpoaGo是一个人工智能程序，却不知道它其实是一个家族，早期战胜韩国选手李世石的是AlphaGo Lee。在乌镇击败世界冠军柯洁的是AlphaGo Master。本次发布的是AlphaGo Zero，它经过3天的训练便以100：0的战绩击败了他的哥哥AlphoGo Lee，经过40天的训练便击败了它的另一个哥哥AlphoGo Master。

AlphaGo Zero最大特点

本次发布的AlphaGo Zero与之前版本相比，最大的区别在于，它不再依靠人类的指导来成长，即之前的AlphaGo Lee是依赖于人工录入的大量棋谱来帮助其学习如何下棋，说白了，它是在人的指导下学习，可以理解为是人类千年围棋经验教出的学生。

而AlphaGo Zero使用了强化学习算法，即不再依赖任何棋谱，编程人员输入围棋基本规则后，不再进行任何教导，完全由其自己进行摸索，总结走棋方法，相当于人工智能完全按照自己的方法学习。AlphaGo Lee完败于摒弃了人类经验的AlphaGo Zero，这说明人类的经验可能误导了AlphaGo Lee，进而限制了它的发展。

AlphaGo Zero的行棋方式在开局和收官阶段，与人类选手有较大的相似之处，而盘中的行棋风格的确与人类选手和之前版本的AlPhaGo有较大不同，而正是这种不同让其可以在100次与AlphaGo Lee的交战中立于不败，换个说法，如果当初AlphaGo Lee没有拜人类为师，而是向机器学习，那么对于拥有更强计算能力的AlphaGo Lee来说，胜负还未可知。

除了零经验学习外，AlphaGo Zero的另一大特点是将之前版本AlphaGo的两个神经网络融为一体，在之前版本的AlphaGo上，如何走棋是由“策略网络”和“价值网络”两个神经网络来计算如何行棋的，即首先由“策略网络”利用之前累积的经验，判断在当前棋型下哪些位置适合行棋，之后由“价值网络”对在这些位置行棋后的种种可能进行模拟，计算胜率，最终选择出行棋位置。

而AlphaGo Zero将二者融为了一体，对之前两个网络的特征提取等模块进行了共用，可以在计算出可能行棋的位置时便给出相应的“胜率”，大幅提高效率，减少了训练所需的时间。这也是AlphaGo Zero在训练了三天就打败了训练了几个月的AlphaGo Lee的主要原因之一。

人工智能不仅是计算机科学领域发展的制高点，在所有行业都具有无限潜力和应用价值，目前世界各国普遍看好，人工智能技术将成长为下一次技术革命契机。即便最终人工智能没有达到革命级别的颠覆程度，AI已经在逐渐改变我们的生活。

以往人工智能的进步都是建立在软件与硬件同步发展的基础上，神经网络算法最早在上个世纪中叶就被提出，然而受限于计算能力，神经网络算法一直发展缓慢。

之后随着硬件计算速度的不断提高，已有的软件算法不断被实现并改进，改进的算法对硬件要求更高，从而进一步促进了硬件的发展，而AlphaGo Zero的出现完全建立在算法更新的基础上。

前一版本的AlphaGo需要在48个TPU(谷歌专为加速深层神经网络运算能力而研发的芯片，一块成本即达500万美元)上进行几个月学习，而AlphaGo Zero只需要4个TPU加上几天的时间便可完成学习。这种零经验学习能力非常适合在蛋白质折叠和其它缺少样本的医疗领域进行应用，可以很好地解决因缺少试验样本而导致研究进展缓慢的问题。未来的相关研究中完全可以输入规则后利用AlphaGo Zero的能力进行模拟，最后利用有限的样本进行验证即可。

AlphaGo逐渐升级之路

故事讲到这里，实在不得不佩服谷歌深厚的技术实力与精明的商业头脑。AlphaGo从诞生伊始，就得到了deepmind团队的精心包装，仔细回想起来，可谓是“城里套路深”。

从最初战胜低段位职业棋手开始预热或者说炒作，到战胜人类顶尖高手李世石，AlphaGo的登场已经足够华丽。不过4比1的比分还是给了人类一线希望，这仅有的胜局中，李世石剑走偏锋，直接把AlphaGo逼出了“大脑短路”的症状，可见此时AlphaGo虽已经足够强大，但尚不完美。此后各路人类高手开始卧薪尝胆，精研AlphaGo的套路，寄希望于重新捍卫人类尊严。

随后，今年年初，一个神秘的“master”在围棋界顶级棋手的对战平台上取得了60胜0负的骄人战绩，这位master到底是何方神圣，是人是妖可谓是赚足了吃瓜群众的眼球。直到华丽的60胜达成，谜底才最终揭晓。

此后便是吸引了全世界目光的乌镇对决，AlphaGo Master把柯洁打到毫无还手之力。虽然柯洁已经表现出了真正的人类最强者战力，却仍然被AlphaGo完全压制，只要出招有任何一点闪失，立刻会陷入AlphaGo“最小优势胜”策略的陷阱，再无翻身余地。

乌镇对决之后，人类在围棋领域已经彻底甘拜下风，别说柯洁一人，五大高手联手作战比柯洁输得更快，AlphaGo一时风光无限。

如今，乌镇硝烟刚要散尽，谷歌又搞了个大新闻出来！人工智能在摒弃人类经验后，用三天时间自学的AlphaGo Zero打败了人类几千年的经验。AlphaGo的进化版打败了原始版，不禁叫人想起《铁甲钢拳》里叫人热血贲张的机甲肉搏，一个AI输给另一个更牛的AI，中国AI战胜美国AI，这很有可能是未来棋类竞技中的真实场景。

在电影《异形：契约》中，人类创造了机器人“大卫”，而大卫认为自己比创造它的人类更加高级，反而去研究异形，杀害人类。电影《I Robot》中采用的剧情设定也是基于机器人不断进化，进而以更优秀的逻辑打败了限制他们的定律，试图夺取地球控制权的故事。

人工智能技术近年的发展速度之迅猛，确实令人瞠目，就连我退休的老娘，都开始在朋友圈转发各种博人眼球的“AI统治地球论”，虽然可能最后她还是不知道AI到底是什么意思。

这种论调认为，也许就在不久的某一天，人工智能将不再是一个执行者的定位，它将成为一个优秀的领导者，而人类的地位也将变成用来代替机器人，完成机器人不方便执行的工作，如同文章开头所说，人工智能的进化远远领先于人类，而人类沦落为试验对象。

AI统治地球：幻想&有可能？

那么，AI的实力果真已经进化到了那样的地步？AI统治地球到底只是幻想还是确有可能呢？

各位读者可能也注意到了，近几年来新闻中出镜率颇高的人工智能技术突破往往以游戏作为切入点。从传统的棋牌类游戏（象棋、围棋、德州扑克）到电子游戏（星际、Dota），软件开发精英们似乎总是偏爱与人类生活关系并不密切的游戏。

那么问题来了，为何AI的开发常常以游戏为切入点呢？AlphaGo之父，谷歌旗下DeepMind公司CEO哈萨比斯给出了这样的答案：“游戏是测试AI算法的完美平台，这里有无限的训练数据，不存在测试偏差，能够实施并行测试，并且还能记录每个可以量化的进展”。翻译成人话就是，花钱少，风险小。

AlphaGo在围棋项目上独步天下，乃至孤独求败到要左右互搏是不争的事实，可是人类生存需要面临的工作绝非下围棋一件事这么简单。围棋不过是无数人类游戏中的一种，而且在这些众多的游戏中，围棋的位置还真的谈不上是皇冠上的明珠，只是在完全信息博弈游戏这个领域里，围棋是公认的明珠罢了。

至于什么是完全信息博弈游戏，我们可以参考之前发布过的文章《AI吊打Dota2人类高手？你可能又被标题党坑了》（https://p.baidu.com/daily/view?id=82494）

“完全信息博弈游戏：在这类游戏中，每一个参与者都拥有所有其他参与者的特征、策略集及得益函数等方面的准确信息的博弈（尴尬而不失礼的翻译：己方的生命值，武器系统，技能系统等相关信息都被博弈对手所完全掌握，反之亦然。当然，这里并不是说你将要使出的招法在出招之前就能被对方预知，而是说你只能使出招式表中的招法。对手即便知晓你的全部出招可能，出什么招，何时出仍然是你根据场上形势随机应变，相时而动的）。”

那么非完全信息博弈游戏呢，当然是与上面的完全信息博弈游戏相反，举一个例子，《星际争霸》。玩过类似即时战略游戏的读者都知道，这种游戏中，敌人的实时状态我们是不能完全掌握的，且不说屏幕只能显示当前视野，战争迷雾（war fog）的存在也让敌我双方的状态都变得扑朔迷离，你在老家干什么事儿，敌人不跑过来打一架是无从知晓的。

这么来看，围棋AI能够处理的局面还是局限性太强了，且不说各种即时战略游戏，我们化繁为简，举几个日常生活中大家都熟悉的例子。

麻将，中国国粹之一。打麻将的时候，假设我们四方对战，三位人类高手加上强大AI，局面会怎样呢？

AI固然拥有惊人的计算能力和记忆能力，每一张打出的牌都记得清清楚楚，每一口牌的成胡几率都算得明明白白，可是AI还是保证不了每一局都能取得胜利。为什么？另外三家的牌扣在那里，AI获得的信息实在太有限了，无法掌控战场的完全态势，也就无法发挥压倒性的计算能力。

吹牛是北方的小朋友经常打的一种扑克游戏，当然也适合大人孩子一起玩儿，气氛非常欢乐。这个游戏中，自己扔出几张扣着的牌，告知对方这是三张六或者一对勾等等。对方选择相信，就开始由对方出牌，规则同样是扣着出牌然后报数字和张数。对方选择不信就要翻开你扣着的牌，如果你的牌与你声称的数字和张数吻合，对方就要拿走这几张牌，如果不符，你就得收回这几张牌。最后先把手中牌全部出完即为胜利。

这样的游戏规则之下，AI无法完全掌握对方手中到底有怎样的牌，也很难算出对方撒谎的概率，反倒是人类可以通过察言观色来判断对方话的可信程度，AI的计算能力反而无所适从。

类似电影《终结者》系列中拥有自主智能并致力于绞杀人类的AI“天网”在目前看来仍然只是狂想。“谋略”二字深刻地反映出人类智慧的高度，运筹帷幄、纵横捭阖、兵不厌诈目前还是人类的专利。即便AlphaGo不断在围棋领域搞大新闻，我们也没有惶恐的必要。

相反，不断提升的AI性能、不断扩展的应用领域，最终的结果还是造福人类。人工智能的发展方向以及人类与人工智能的未来终究还是人类，而不是AI所要思考的问题。