【TD精选】博弈论-走向平衡的路并不清晰

如题所述

第1个回答  2022-06-18

约翰·纳什的均衡理论在经济理论中是普遍存在的,但一项新的研究表明,通常不可能有效地达成。

所有的游戏都有纳什均衡。但参与者能否达到?

1950年,数学家约翰·纳什(John Nash)——后来在书和电影“美丽的心灵”中出现而更知名——写了一篇只有两页的论文,改变了经济学理论。他的关键却简单的想法是,任何竞争游戏都有一个均衡状态,在均衡状态下,每个玩家采取策略集合中的一种策略,且没有玩家可以通过单方面切换到不同的策略来赢得更多的利益。

纳什的均衡概念在1994年获得诺贝尔经济学奖,它不仅在经济学中,而且在心理学,进化生物学和许多其他领域中,为理解战略行为提供了一个统一的框架。芝加哥大学的另一位经济学诺贝尔奖得主罗杰·米森(Roger Myerson)写道:“它对经济理论的影响与生物科学中DNA双螺旋的发现相当。”

当参与者处于均衡状态时,没有人有理由去偏离这种状态。可是,参与者是如何达到均衡状态呢?这就好比,一个滚球在下坡过程中可能会停留在山谷里而不再继续,同样的,并没有明显的力量指导参与者走向纳什均衡。

斯坦福大学理论计算机科学家Tim Roughgarden说:“它一直是微观经济学家的一个刺。他们使用这些均衡概念分析即将处于均衡状态的人们,但并不总能令人满意的解释为什么人们将走向纳什均衡,而不仅仅只是在摸索。”

如果人们只玩一次游戏,期望他们找到一个均衡点往往是不合理的。这是特别是当每个玩家只知道游戏的不同结果对他自己的价值,而不知道他的同伴的情况,而这在现实世界中是典型的场景。但是,如果人们可以反复执行同样的游戏,也许他们可以从早期的回合中学习,并迅速地将自己转向均衡策略和状态。然而,找到这种有效的学习方法的尝试往往徒劳无功。

加利福尼亚大学伯克利分校理论计算机科学博士学位的Aviad Rubinstein说:“经济学家提出了如何快速收敛到均衡状态的机制。但是对于每个这样的机制,你可以建立一些简单的游戏规则,却不能运作。”

现在,海法技术与以色列理工学院的数学家鲁宾斯坦和雅科夫·巴布奇宁科已经对此困局进行解释。在去年9月发布的一篇论文中,他们证明,没有任何适应策略的方法可以应对以往的游戏并使其有效地收敛到纳什均衡,无论这个方法多么聪明、符合常识、或富有创造性,甚至连近似的纳什均衡都无法达到。“这是一个非常彻底的消极结果”,Roughgarden说。

经济学家经常使用纳什均衡分析来证明他们提出的经济改革是有道理的。但新的结果表明,经济学家不能相信游戏玩家将达到纳什均衡,除非他们可以证明特定游戏的特殊性。希伯来大学的计算机科学家Noam Nisan说:“如果你想弄清楚你的游戏是否容易找到一个均衡点,那么你必须提供理由。”

多人游戏

在一些简单的游戏中,很容易发现纳什均衡。例如,如果我喜欢中国菜,而你更喜欢意大利菜,但是我们最强烈的喜好是一起吃饭,两个明显的均衡是我们两个人去中国餐馆或我们两个人去意大利餐厅。即使我们开始只知道自己的喜好而且不能在比赛之前交流策略,我们也并不会因为花太多时间去深入了解彼此的偏好而导致错过联系的机会从而只能孤独的晚餐,我们很有希望找到一个,或者另一个均衡。

但是想象一下,如果晚餐计划涉及100人,每个人都决定了他喜欢和什么人共进晚餐,同时没有人知道其他任何人的喜好。纳什在1950年证明,即使像这样的大型复杂的游戏,也总是存在一个均衡(至少在策略的概念被扩大以允许随机选择,比如你有60%概率选择中国餐馆,的情况下是成立的 )。可惜纳什在2015年因车祸而死亡,他没有给出达到均衡的计算方法。

阿维亚·鲁宾斯坦(Aviad Rubinstein)帮助表明,玩家不一定会发现纳什均衡。

Tselil Schramm通过潜入Nash的证明过程,Babichenko和Rubinstein能够表明,一般来说,玩家无法找到近似纳什均衡的路径,除非他们表达了几乎所有关于他们各自的喜好。随着游戏中玩家的数量的增加,这种沟通所有需求的时间迅速增长到足以令人望而却步。

例如,在100人的餐厅游戏中,有2 100种可能的结果,因此每个玩家必须共享2 100种偏好。相比之下,自大爆炸以来已经过去的秒数只有2^59。

这种通信瓶颈意味着,任意方法都不可能通过从一轮到另一轮的适应策略来指导玩家有效地达到纳什均衡,至少对于一些复杂游戏的这样的(例如具有复杂偏好的100人玩家餐厅游戏)。毕竟,在每一轮中,玩家只会学到一点新信息:其他玩家对某种晚餐安排有多满意。因此,他们需要2^100轮游戏来知道彼此价值观(而在此之前中国和意大利餐馆可能都已经关门了)。

耶路撒冷希伯来大学游戏理论家塞尔古·哈特(Sergiu Hart)说:“如果这将比宇宙演化花费更长的时间,那当然完全没有用。”

玩家为找出纳什均衡,有时候需要知道对方所有的价值观,这看起来很自然。然而在现实中,这往往是难以实现的一点,即使玩家愿意达到一个接近纳什均衡且已经足够好的近似纳什均衡。这是新的论文提出的一个重要的发现。

Babichenko和Rubinstein的结果并不意味着所有(甚至大部分)的游戏都将受到这个限制,也就是说,只有一些游戏会。经济学家用来建模现实世界的许多游戏都有额外的构架,从而大大减少了每个玩家必须沟通的信息量。例如,如果我们每个人都选择我们早上通勤的两条路线之一,那么你可能不在乎每个路线上有哪些车手 - 你只需要路线上有多少车。这意味着你的收藏偏好将具有很高的对称性,你可以将其全部内容转换成两个选择好的句子,而不是2^100个。

经济学家可以使用这样的论据来证明为什么特定的游戏是可以达到纳什均衡的。但本文介绍的新的成果,意味着这种判定必须在一个个具体案例中分别作出,即不存在一个完美论据证明对于所有游戏,达到纳什均衡都是可实现的。

随着文明的发展,尽管许多游戏可能会被简化到适合简单的博弈模型,而在互联网时代,从约会网站到在线股票交易,各种新的多人游戏层出不穷。希伯来大学的计算机科学家Noam Nisan说:“在这个时期,我们不可能通过缓慢的人类进化找到容易达到平衡的游戏。”我们在设计新的游戏的时候,如果假设我们会达到一个平衡点,那我们常常就会出错。

澳大利亚布里斯班昆士兰大学的经济学家安德鲁·麦克伦南(Andrew McLennan)说,在现实生活中,人们往往不在平衡点玩游戏,这是经济学家敏锐地认识到的。但是他说,“经济学没有什么理论结构来解释经济学的精确程度。” 比如巴奇琴科和鲁宾斯坦这样的新计算机理论科学成果,应该可以为以正式的方式来解决这个问题而提供灵感。”

但是这两个领域有着非常不同的思维方式,这可能会阻碍跨学科交流:经济学家倾向于寻找简单的模型来捕捉复杂交互的本质,而理论计算机科学家通常更有兴趣了解随着模型日益复杂化而发生什么。 “我希望经济学的同事更加意识到,计算机科学正在做更有趣的事情”麦克伦南说。

可被信任的调解员

在纳什的平衡与纳什的论文24年后,这个新的研究成果在既有的纳什均衡的理论与更一般的均衡概念之间划出了明显的分界线。 1974年,另一位经济学诺贝尔文学家罗伯特·奥曼(Robert Aumann)提出的“相关均衡”假设了一个场景,每个游戏玩家都接受来自信任的调解员(或“相关设备”)的建议,来了解有关策略的效果。如果没有哪个玩家出于特别动机来曲解他所收到的建议,并且每个玩家都相信其他玩家会遵循他们各自收到的建议,那么调解员的建议就形成了一个相关的均衡。

这可能起初听起来像一个神秘的构造,但实际上我们一直在使用这种相关的平衡 - 例如,我们抛硬币来决定我们吃中餐还是意餐,或用交通信号灯来规范我们中的哪一个将首先通过交叉路口。

罗伯特·奥曼发明了相关均衡的概念

在这两个例子中,每个玩家都清楚地知道“调解员”给予另一个玩家的建议,调解者的建议基本上协调了玩家来达到他们游戏中的纳什均衡。但是,当玩家只知道不同的建议之间是如何相互关联的,却不知道其他人正在获得什么建议时,奥曼表示,相关均衡的集合可以包含多于Nash均衡的组合:既它可以包括不是纳什均衡的那些游戏状况,但有时候会产生比任何纳什均衡更积极的社会效果。例如,在一些游戏中,合作对球员的总收益将高于独立采取行动,调解员有时可以通过隐瞒他给其他玩家的建议来诱骗某个玩家来合作。这个发现,迈尔森说,是非常意外的。

由线性方程组和不等式的集合表示的一组游戏的相关均衡比 Nash 平衡组更便于用数学方法处理,在调解员提供许多不同的建议情况下也是如此。 “以一种别致的方式思考,数学是如此美丽。”迈尔森说。

虽然迈尔森(Nelson)把纳什的游戏理论视为“20 世纪杰出的智力进步之一”,但他认为相关平衡可能比纳什均衡更为自然。他多次表示:“如果在其他行星上有智慧的生活,那么他们大多数会在纳什均衡之前发现相关均衡。

在可重复的游戏中,很自然的,玩家会逐渐适应且趋向他们的均衡策略。例如,采取“最小遗憾化”方法,即在每轮之前,玩家以更高的概率去选择那些他后悔在过去的游戏中没有发挥作用的策略。Roughgarden 表示:“遗憾的最小化是一种与现实生活有一定相似之处的方法——留意同时过去运作良好的策略,偶尔尝试一些新的策略。”

研究人员已经表明,许多游戏中,最小遗憾化法会迅速地将游戏收敛到相关平衡,令人惊奇的是:如果调解员一直在向玩家提供建议,那么在大约 100 轮之后,这些游戏的历史看起来基本相同。麻省理工学院理论计算机科学家康斯坦丁诺斯·达斯卡拉斯(Constantinos Daskalakis)表示:“在通过互动过程中,(相关的)设置会以某种方式被隐含地发现。”

随着游戏的继续,玩家不一定保持在同一个相关均衡态上——例如,在 1000 回合之后,他们可能已经漂移到一个新的平衡,所以现在他们的 1000 场比赛的历史看起来好像被一个不同的调解员影响的。这个过程让人联想到现实生活中的情况,Roughgarden 说,比如社会规范的逐渐演变。

尼桑说,在纳什均衡难以达成的复杂游戏中,相关均衡是替代解决方案概念的“自然主导竞争者”。

迈尔森说,人类在相关均衡之前就提出了纳什均衡的观点,这可能只是一个历史事故。他说:“人们会认为更早发展出的思想是更为基础性的思想,但是在这种情况下,谁又能说什么是基础性本的想法呢?”

然而,关于游戏快速收敛的结论,并不意味着其中任何一轮的游戏都是蕴含着相关均衡的作用的——相关均衡体现在游戏的长期历史中。鲁宾斯坦指出,这意味着在任何一轮中,最小遗憾法并不总是理性选手的理想选择。那就留下了“理性玩家会做什么”的问题,而这目前没有明确的答案。

原文链接: In Game Theory, No Clear Path to Equilibrium

相似回答
大家正在搜