从空城计到阿尔法狗，博弈论如何渗透我们的生活？

横跨数学、经济学和人工智能等诸多范畴的博弈论，是一门极富挑战性而又美轮美奂的交叉科学。物理学家朗道曾感慨本身生不逢时，包罗他在内的一流科学家，在那时都只能研究二三流的问题。现在耕作在博弈论范畴的学者则幸运很多，这里不仅有一堆一流的问题有待研究，并且还有很多主要问题尚未被发现。

撰文 | 刘鲁川（南边科技大学金融系传授）

2016年，有那么一只“狗”大闹天宫，这在整小我类社会引起了轩然大波。它就是阿尔法狗（AlphaGo），是谷歌（Google）旗下公司DeepMind 在人工智能与博弈论交叉研究上的一个佳构。这只狗不仅在昔时以4:1击败了围棋宿世界顶级选手李宿世石，次年又让位列宿世界第一的柯杰泪洒棋盘。围棋是一个最具挑战性的聪明游戏，而人工智能博弈在围棋上战胜了人类顶级棋手，无疑标记着一个极新时代的到来。此刻就让我们一路领会一下人工智能博弈背后的科学：博弈论（Game theory）。

说到博弈论，我们不禁会联想到那些布满机谋聪明的汗青故事。好比战国期间的田忌跑马、孙膑献计，都是以己方相对优势的组合策略去战胜绝对优势的对方。这是博弈理论中最佳对策（best reply）的一个典范。在三国演义中，诸葛亮唱的那出吓退司马懿大军的空城计，更是在不合错误称信息情况下实践行为博弈的传奇。

1、博弈论范畴的科学巨人和他们的学说

现代博弈论的降生是以四十年月数学巨匠冯·诺依曼（John von Neumann）和经济学者摩根斯坦（Oskar Morgenstern）的巨著《博弈理论与经济行为》的出书为标记的。冯·诺依曼可谓是一位文艺回复式的科学“综”师。他不但是二十宿世纪最伟大的数学家，仍是博弈论和计较机之父。他成立了量子力学的正义化系统。博弈论学科的成立也是一个汗青的必然。第二次宿世界大战等国际政治匹敌不仅催生了原枪弹，也直接鞭策了计较机、博弈论、暗码学等新兴学科的成长。博弈论这门聪明游戏的科学，从它降生的一天起头，就玩得有些大。它的学术范畴一向十分活跃，群星闪烁，不乏神奇。已先后有十几位科学家因为他们在博弈论及其应用范畴上的卓越当作就，而拿到了诺贝尔经济学奖。

John von Neumann。1944年，冯·诺依曼与摩根斯坦合著的《博弈理论与经济行为》出书，标记着现代博弈论的降生。

我们必需要讲到是一位数学奇才：纳什（John Nash）。他二十几页的博士论文给出了策略博弈中的一个根基解概念，这就是后来以他的名字来定名的纳什平衡理论（Nash equilibrium）。在这里平衡的理念就是，在一个非合作博弈中，一旦所有玩家的行为达到了一个平衡状况，那么此中任何一个理性玩家都不会愿意零丁改变他的策略。因为任何零丁的改变，都不会给他带来任何的益处。平衡概念是博弈论以及现代经济学理论的一个最根基的思惟。

纳什因为其伟大的工作，当作为了第一批拿到诺贝尔经济学奖的博弈论科学家。有一部好莱坞大片叫《斑斓的大脑》（A beautiful mind，又译“斑斓心灵”）就是讲他的故事。片子实际与虚幻连系，十分都雅。My God, 博弈论还能拿奥斯卡。九十年月我在美国石溪大学读研究生。石溪是博弈论科学家经常汇聚的一个中间，从九零年起每年城市举办国际博弈论大会。每逢大会，这个范畴的科学家和学生云集，博弈论的巨匠们也会参加。昔时在会场上，不难看到纳什这个“斑斓的大脑”在四处浪荡。

“斑斓的大脑”John Nash。纳什因为“在非合作博弈理论中对平衡的开创性阐发”，与John Harsanyi 和 Reinhard Selten 一路获得1994年诺贝尔经济学奖。

另一位博弈论的宗师沙普利（ Lloyd Shapley ）更是一位有故事的人。合作博弈论有以他名字定名的价值理论Shapley Value，给出了可让渡资本分派的一个必备准则。他提出的随机博弈（stochastic game）问题是博弈理论范畴中的顶级难题之一，引一代又一代天才科学家为其折腰。我的导师尼曼（Abraham Neyman）就是这个范畴的领航者。他与我的另一位教员莫顿斯（Jean-Francois Mertens）在八十年月解决一个困扰这个范畴二十多年的开放问题。（不由得要暗里埋怨一下，莫顿斯的课是我所有上过的课中最虐人的，没有之一。）

前面所提到的AlphaGo可以算是人工智能在解决随机博弈问题上的一个实践了。沙普利与罗斯（Alvin Roth）在2012年分享了诺贝尔经济学奖，则是因为他在资本匹配理论方面的伟大工作。他与合作者盖尔（David Gale）设计了一套算法证实了两维不变匹配必然存在。他们的“婚配”理论模子建议，无论男女哪方，谁先本家儿动追求，谁最后的成果就会更有利些。博弈论的理论研究居然还能带出感情自由的灿艳火花来，真是令人叹为不雅止。

沙普利与中国也很有渊源，二战时代他曾作为美军专家驻守重庆，专门破译日军的加密电报。而在他今后的学术生活生计中也指导培育了多名中国粹者，美国加州大学的秦承忠传授就是出自他的门下。开挂的人生天然要有纷歧般的性格。据说昔时瑞典皇家学院打德律风通知他荣获了诺贝尔经济学奖，而他的第一反映倒是诘责来德律风的人，他是一个数学家，为什么要拿经济学的奖。

Lloyd Shapley因为“关于不变匹配与市场设计实践的理论”，与Alvin Roth 一路获得了2012 年诺贝尔经济学奖。| 照片：U. Montan / The Nobel Foundation

我们的教员奥曼（Robert Aumann）是一个会讲故事的人，滑稽诙谐，无论何等艰深的理论在他口中都酿成了雅俗共赏的艺术。上他的课如同在听音乐会，使人心灵沉醉。奥曼的风采，与他是科学和宗教的双重巨匠不无关系，在他那边，人类的理性与天主是如斯的接近。人类在思虑，天主在微笑。奥曼蓄着银白色的大胡子，那是他科学前贤的标记。

奥曼与纳什、沙普利等是现代博弈论的学术魁首，他与沙普利配合成长了合作博弈论中的价值理论。他提出的配合常识学说（Common knowledge）是博弈论的一个哲学根本，“我知你知，你知我知你知，我知你知我知你知……” 真可谓道可道很是道，玄之再玄。有后人评说，司马懿之所以没敢入诸葛亮的空城，是因为他失落进了与孔明的共识怪圈，就没能出来。（你信吗？归正我信了。）

奥曼在反复博弈（repeated game）范畴作出了奠定性的工作。我们都知道，在阶下囚困境博弈中，合作并不是纳什平衡。但基于奥曼的理论，只要反复博弈的次数足够大，阶下囚的合作也可所以平衡点。这就是有名的佚名心猿意马理（Folk Theorem）。我在当学生时沉迷于奥曼的相关均衡理论（Correlated equilibrium），那些如太阳黑子般的宿世外影像，却可以指导人们发生出更丰硕多彩的联系关系的经济行为，如贸易波动等。相关平衡不仅是纳什平衡概念的理论成长，并且其概念的简单性又让它避免了纳什平衡计较上的复杂性，真是美妙。

因为他在博弈论的卓越建树，奥曼在2005年获得了诺贝尔经济学奖。他带领编著了博弈论百科全书，并成立了以色列决议计划科学与理性中间和美国石溪博弈论中间等学术机构，创作发明了现代博弈论学派扶植的平台。

Robert Aumann 因为“经由过程博弈论阐发加强了我们对于冲突与合作的理解”，与Thomas Schelling 一路获得了2005年诺贝尔经济学奖。| 照片：D. Porges / The Nobel Foundation

2、博弈论的学科布局：数学与经济学的交汇

简单来说，博弈论是一门研究聪明个别彼此感化与决议计划的科学，是数学、经济学和人工智能等学科交叉的科学。博弈论作为数学的一个分支范畴，可以把它与运筹学来类比。运筹学有两个根基使命：优化和分派。我们在中学都学过求极值的问题。简单地说，博弈论就是多元的优化和分派的推广，是研究在多元彼此感化的系统中个别或群体决议计划的科学。然而与运筹学不尽不异的是，博弈论也关顾博弈介入者的理性、聪明、行为，以及信息情况。也有与行为科学订交叉的进化博弈论分支。博弈论分为非合作博弈（策略博弈）和合作博弈两大范畴。让我们经由过程介绍博弈论在经济学上的成长，来领会它的根基学科框架。

今世博弈论一问宿世就与经济学联系在一路，冯·诺依曼和莫根斯坦那本开山巨著就以这个标题问题来定名。若是拿经济学与物理学比拟较的话，那博弈论就是经济学理论中的“量子力学”。博弈论和一般平衡理论（general equilibrium）是当今经济学理论的根基说话和范式。从微不雅的视角来看，在我们的经济系统中存在分歧的经济个别，它们不仅具有自我行为，同时也在交互感化着。无论是小我，仍是社区；无论是公司企业，仍是当局部分，我们都可以把它们的行为简化当作一个模子：

为了个别本身的目标，做出本身的行为决议计划。

而这些经济个别的最终好处不仅与自身的行为有关，并且也取决于其他个别的行为。例如华为在手机市场上的营利不仅来自于公司自身的研发、出产和发卖上的作为，还要看苹果、三星和国内敌手的动作。若是不研究敌手，不不雅大局，我们所谓的“勤奋致富”就形同于瞽者摸象。竞争就是在系统中与其他个别交互感化中为达到最大好处的最优行为。研究经济个别的竞争行为是微不雅经济学的范围，也是经济学中的非合作博弈理论。非合作博弈最根基的解决方案，就是上面介绍的纳什平衡。

金融学中有一难题，是套利的极限。套利是操纵本钱市场中资产价钱错配的机遇，采纳金融买卖手段来套取营利的勾当。若是有一天，你发现周边有两个农贸市场都在卖同样一种苹果，但价钱却不尽不异。你可标的目的伴侣借些钱，买了廉价的苹果去另一市场高价出售，还了伴侣的钱后，留在兜中的钱就是你的套利了。（奉求，不要再标的目的我推销了。我这里的苹果已经吃不用了。）

市场有用性假说认为，市场上几乎不会存在这种套利机遇，因为一旦有套利机遇，无数投契者就会簇拥而至，套利机遇也就会随之而消逝。但实际并非如斯，市场上套利机遇仍是到处可见。施莱佛（Andrei Shleifer）和威斯尼（Robert Vishny）应用博弈理论模子诠释了这个套利极限的问题。他们认为，专业基金办理人受制于投资人对业绩表示的要求，而不克不及无前提地在任何市场前提下完当作套利操作。

除了竞争，在经济社会中人们也会追求合作。

一个社会收取了各类税项，这些财富资本若何从头分派呢？

一个城市扶植了一个机场，若何来让航空公司去分摊机场的扶植和营运当作本？

更一般的，什么样的合作形式最有用？社会资本若何分派最合理？这些就是合作博弈论研究的焦点问题。

沙普利和奥曼的价值理论为社会资本的分派供给了一个必备的根本准则：一个经济个别可以介入社会中各类分歧的集体（coalitional game），而这个个别最后可以获得的资本应该取决于它对所有社团边际进献（Marginal contributions）的统计平均值。哇，分派决议于进献，老沙他们挺社会本家儿义的。而沙普利又与盖尔为互补资本设置装备摆设成立了不变匹配的理论，那么浪漫的工具，留给你们本身去探讨吧。

人类分派资本和决议组织带领的常用手段是选举表决，我们叫它平易近本家儿。选举表决的平易近本家儿体例真是完美的吗？法国发蒙活动的魁首孔多塞（Condorcet）指出，当有三个备选对象时，平易近本家儿体例可能会掉效。选举表决也许不克不及决议出大师公认的魁首。这就是闻名的孔多赛悖论。他的思惟后来被成长当作阿罗不成能道理（Arrow impossible theorem），它是社会选择（Social choice）范畴的基石。

我们做金融的最经常接触到的就是金融资产和金融市场。“市场订价”（Mark to market）也常我们被用来作为一个行业信条。那什么样的市场更有用？更能精确地反映资产的价值？这就是博弈论中机制设计（Mechanism design）研究的问题。市场中有公开拍卖（Open auction）和封锁拍卖（Sealed auction）。

公开拍卖的体例有多种。荷兰式拍卖是源自于荷兰鲜花市场由高到低的叫价，买者可一口承接。我们在艺术品拍卖会看到的是所谓英式拍卖，竞拍者由低标的目的高地竞相出价，拍品最后由最超出跨越价者购得。

喷鼻港当局也常用封锁拍卖体例出让地盘。在封锁拍卖中，让出价最高者购得拍品是天然了，但让他付什么样的代价，倒是学问了。直觉上似乎是，赢家出的最高价，就应该支付最高价吧。实则非也。我们要让最超出跨越价的赢家以第二超出跨越价的价钱来采办拍品，这叫第二价拍卖（Second price auction）。你能理解为什么在封锁拍卖中第二价拍卖最有用吗？竞拍者的出价会更会接近他本身对拍品的真实估值，这样的市场设计能让买家说真话。

3、博弈论与人工智能：一枚硬币的两面

冯诺依曼与人工智能之父图灵的交集可追溯到他们在美国普林斯顿大学的学术生活生计，那时，他们一个是大牌传授，一个是天才学子。他们两位又同是计较机科学的奠定者。博弈论与人工智能如同是一枚硬币的正反两面。一个要研究聪明个别的彼此感化与决议计划，一个是要使人类智能机械化。当我们想让计较机和机械去像人类一样进修、思虑和行为，现实上就是在让机械对其自身、敌手和情况进行认知和聪明博弈。人工智能也就是要把博弈论机械化。

若是要把人工智能改称为“人工博弈论”（Artificial game theory），必定会有人否决。“Come on, 作博弈论的一边玩游戏去。我们还在忙着看图识字呢！” 一个博弈论和机械进修交叉连系的典范是强化进修（Reinforcement learning）。让我们用最前面所提到的那只AlphaGo 来演绎强化进修的概念吧。

作为人工智能的本家儿体，AlphaGo 与人类棋手进行围棋棋战，它的方针就是经由过程最佳策略来取告捷利。显然，它的最佳策略不仅要遵照围棋的法则，还要针对敌手的行为和策略。在强化进修中，AlphaGo 起首要成立一个由每个阶段的奖励旌旗灯号（reward signal）与评价函数（value function）所组成的方针评价系统，经由过程评估场合排场的胜率来指导决议计划。第二部门是成立它的策略函数（Policy function），可以或许按照敌手的行为和棋局的阐发发生出合理的对策。

在博弈中跟着棋局的转变，AlphaGo从它的策略函数中发生使方针评估胜率最大的策略。AlphaGo是经由过程进修其自我生当作的大量盘局，来形当作它的方针评价系统和策略函数的。这就是关于那只 AlphaGo 强化进修的简约版故事。[其手艺包罗深度神经收集（Deep neural network）和蒙特卡罗树搜刮（Monte Carlo tree search）等手艺，已超出本文的内容。] 强化进修在经济和金融方面的应用前景是显而易见的。

尽管我们欠好把人工智能完全等同于人工博弈论，但搞计较机的人爱玩游戏倒是不争的事实。人工智能科学有一个庞大的游戏场，这就是算法博弈论（algorithmic game theory）。图灵奖科学家姚其智和米卡利（Silvio Micali）是这一范畴的领甲士物。

算法博弈起首存眷博弈理论中的计较问题，有什么样的算法可求解？算法是否可有用地在计较机上实现出来？邓小铁等华人学者在纳什平衡计较复杂性的研究上做出了卓越的进献。比来德州扑克博弈专家萨德豪姆（Tuomas Sandholm）和他的合作者布郎（Noam Brown）在多人扑克的智能博弈上又取得了冲破性的进展。

算法博弈论的另一条成长偏向来历于计较机范畴的分布式计较。它的一个根基问题是若何协调非中间节制的分布式的计较资本。在一个分布式系统中，若是有些结点上呈现了问题，这个系统还可以正常工作吗？这就是闻名的拜占庭将军问题（Byzantine failures）。当前很是活跃的区块链手艺也是算法博弈与暗码学等范畴的交汇。作为暗码学与算法博弈巨匠的米卡利，比来推出了他的区块链（blockchain）项目Algorand，备受业界的存眷。

算法博弈蓬勃成长的一个本家儿要动力还来自于它在互联网经济糊口中的普遍应用。从谷歌、百度网页上的告白拍卖，到滴滴出行、Airbnb共享平台的机制设计，从人体器官移植的配匹，到今日头条等资讯的个性化保举，算法博弈都是支撑它们的焦点根本手艺。今天，博弈论正以极新的体例走进我们糊口的方方面面。

4、结篇寄语

尽管博弈论中的一些问题和它的朴实思惟或许可以追源到远古，但当今博弈论学科的成长却日新月异、风华正茂。博弈论学科横跨数学、经济学和人工智能等诸多范畴，是一门极富挑战性而又美轮美奂的交叉科学。昔时闻名物理学家朗道曾感慨本身生不逢时，那时包罗他在内的一流科学家，在物理学范畴，也只能研究二三流的问题。当今博弈论范畴，不仅有一堆一流的问题有待研究，并且还有好些主要问题尚未被发现。这也是为什么，博弈论范畴硕果累累、群星璀璨。近年来它也当作为诺贝尔经济学奖得本家儿的摇篮。在博弈论的学术范畴，我们华人科学家也是人才济济，当作就斐然。好比周林传授因其在博弈理论研究上的卓越工作，于2009年入选宿世界计量经济学学会会士（Fellow）（这里并不试图对华人学者在博弈理论范畴的工作进行周全的介绍）。

博弈论也是一门适用性学科，它的根基原则和策略方式早已当作为现代政治糊口、经济勾当、金融投资、贸易决议计划和组织办理等范畴必备的行为规范和实践手段。诺贝尔经济学奖得本家儿罗斯曾倡导，经济学者也是工程师。他本人就在身体力行，是博弈论在社会资本匹配应用实践上的先行者。

今天，跟着博弈论与人工智能的交汇，以及算法博弈的长足成长，博弈论正从科学的殿堂大步走出，汇入工程手艺的广漠海洋，在各个方面办事于我们的糊口。

年青的伴侣们，让我们一路来领会和进修这门研究和实践聪明游戏的学科——博弈论。

阅读建议

国际上博弈论的专业教材和杂志文献十分丰硕，这里保举几本国外文献的中译原本作为我们入门进修的教程。

学科科普

《纳什平衡与博弈论》汤姆?齐格弗里德 (作者), 洪雷 (译者), 陈玮 (译者), 彭工 (译者)

学科应用

《策略思维——商界、官场及日常糊口中的策略竞争（巨匠细说博弈论）》阿维纳什·K·迪克西特 (作者), 巴里·J·奈尔伯夫 (作者)；

《妙趣横生博弈论：事业与人生的当作功之道》迪克西特(Dixit A.K.) (作者), 奈尔伯夫(Nalebuff B.J.) (作者)

学科专业

《博弈论根本 (今世经济学教科书译丛) 》罗伯特·吉本斯 (作者), 岑岭译 (译者), 魏玉根校 (译者)

作者简介

刘鲁川，南边科技大学商学院金融系传授。中国运筹学会博弈论分会理事。曾先后为喷鼻港城市大学商学院经济和金融学助理传授和客座传授。也曾就职于华尔街高盛集团，曾为高盛亚洲风险本家儿管和喷鼻港期货买卖所高盛公司代表。美国纽约州立大学经济学博士，海说神聊京理工大学物理学理学学士。今朝本家儿要研究乐趣：博弈论、人工智能与金融科技。

特别提示

《返朴》，科学家领航的好科普。国际闻名物理学家文小刚与生物学家颜宁配合出任总编纂，与数十位分歧范畴一流学者构成的编委会一路，与你配合求索。存眷《返朴》介入更多会商。二次转载或合作请联系fanpusci@163.com。