知识问问>百科问答>什么是贝叶斯纳什均衡?

什么是贝叶斯纳什均衡?

2023-06-22 05:12:03 编辑：join 浏览量：627次

什么是贝叶斯纳什均衡?

博弈论(Game Theory)，有时也称为对策论，或者赛局理论，应用数学的一个分支, 目前在生物学，经济学，国际关系，计算机科学, 政治学，军事战略和其他很多学科都有广泛的应用。主要研究公式化了的激励结构（游戏或者博弈（Game)）间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。

博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。表面上不同的相互作用可能表现出相似的激励结构(incentive structure)，所以他们是同一个游戏的特例。其中一个有名有趣的应用例子是囚徒困境悖论(Prisoner's dilemma)。

具有竞争或对抗性质的行为成为博弈行为。在这类行为中，参加斗争或竞争的各方各自具有不同的目标或利益。为了达到各自的目标和利益，各方必须考虑对手的各种可能的行动方案，并力图选取对自己最为有利或最为合理的方案。比如日常生活中的下棋，打牌等。博弈论就是研究博弈行为中斗争各方是否存在着最合理的行为方案，以及如何找到这个合理的行为方案的数学理论和方法。

生物学家使用博弈理论来理解和预测进化论的某些结果。例如，John Maynard Smith 和George R. Price 在1973年发表于Nature上的论文中提出的“evolutionarily stable strategy”的这个概念就是使用了博弈理论。还可以参见进化博弈理论（evolutionary game theory）和行为生态学（behavioral ecology）。

博弈论也应用于数学的其他分支，如概率，统计和线性规划等。

[编辑]博弈论简史

对于博弈论的研究，开始于策墨洛(Zermelo,1913)，波雷尔(Borel,1921)及冯·诺伊曼(von Neumann, 1928)，后来由冯·诺伊曼和奥斯卡·摩根斯坦(von Neumann and Morgenstern，1944，1947)首次对其系统化和形式化（参照Myerson, 1991）。随后约翰·福布斯·纳什(John Forbes Nash Jr., 1950, 1951)利用不动点定理证明了均衡点的存在，为博弈论的一般化奠定了坚实的基础。

当代博弈论的“三大家”和“四君子”

"三大家" 包括约翰·福布斯·纳什、约翰·C·海萨尼，以及莱因哈德·泽尔腾。这三人同时因为他们对博弈论的突出贡献而获得1994年的瑞典银行经济学奖（也称诺贝尔经济学奖）。

"四君子" 包括罗伯特·J·奥曼、肯·宾摩尔、戴维·克瑞普斯，以及阿里尔·鲁宾斯坦。

[编辑]博弈论分类

博弈的分类根据不同的基准也有不同的分类。一般认为，博弈主要可以分为合作博弈和非合作博弈。它们的区别在于相互发生作用的当事人之间有没有一个具有约束力的协议，如果有，就是合作博弈，如果没有，就是非合作博弈。

从行为的时间序列性，博弈论进一步分为两类：静态博弈是指在博弈中，参与人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动；动态博弈是指在博弈中，参与人的行动有先后顺序，且后行动者能够观察到先行动者所选择的行动。通俗的理解："囚徒困境"就是同时决策的，属于静态博弈；而棋牌类游戏等决策或行动有先后次序的，属于动态博弈

按照参与人对其他参与人的了解程度分为完全信息博弈和不完全信息博弈。完全博弈是指在博弈过程中，每一位参与人对其他参与人的特征、策略空间及收益函数有准确的信息。如果参与人对其他参与人的特征、策略空间及收益函数信息了解的不够准确、或者不是对所有参与人的特征、策略空间及收益函数都有准确的信息，在这种情况下进行的博弈就是不完全信息博弈。

目前经济学家们现在所谈的博弈论一般是指非合作博弈，由于合作博弈论比非合作博弈论复杂，在理论上的成熟度远远不如非合作博弈论。非合作博弈又分为：完全信息静态博弈，完全信息动态博弈，不完全信息静态博弈，不完全信息动态博弈。与上述四种博弈相对应的均衡概念为：纳什均衡(Nash equilibrium)，子博弈精炼纳什均衡（subgame perfect Nash equilibrium），贝叶斯纳什均衡(Bayesian Nash equilibrium)，精炼贝叶斯纳什均衡(perfect Bayesian Nash equilibrium)。

博弈论还又很多分类，比如：以博弈进行的次数或者持续长短可以分为有限博弈和无限博弈；以表现形式也可以分为一般型（战略型）或者展开型，等等。

[编辑]博弈论的意义

博弈论的研究方法和其他许多利用数学工具研究社会经济现象的学科一样，都是从复杂的现象中抽象出基本的元素，对这些元素构成的数学模型进行分析，而后逐步引入对其形势产影响的其他因素，从而分析其结果。

基于不同抽象水平，形成三种博弈表述方式，标准型、扩展型和特征函数型利用这三种表述形式,可以研究形形色色的问题。因此,它被称为“社会科学的数学”从理论上讲，博弈论是研究理性的行动者相互作用的形式理论，而实际上正深入到经济学、政治学、社会学等等，被各门社会科学所应用。

[编辑]博弈论与纳什平衡

博弈论（game theory）对人的基本假定是：人是理性的（rational，或者说自私的）,理性的人是指他在具体策略选择时的目的是使自己的利益最大化，博弈论研究的是理性的人之间如何进行策略选择的。

纳什（John Nash）编制的博弈论经典故事"囚徒的困境"，说明了非合作博弈及其均衡解的成立，故称"纳什平衡"。

所有的博弈问题都会遇到三个要素。在囚徒的故事中，两个囚徒是当事人(players)又称参与者；当事人所做的选择策略 (strategies)是承认了杀人事实，最后两个人均赢得(payoffs)了中间的宣判结果。如果两个囚徒之中有一个承认杀人，另外一个抵赖，不承认杀人，那么承认者将会得到减刑处理，而抵赖者将会得到最严厉的死刑判决，在纳什故事中两个人都承认了犯罪事实，所以两个囚徒得到的是中间的结果。

类似的：我们也能从“自私的基因”等理论中看到“纳什平衡”的体现。

在互联网这个原始丛林中：最优策略是如何产生的呢？

[编辑]博弈中最优策略的产生

艾克斯罗德（Robert Axelrod）在开始研究合作之前，设定了两个前提：一、每个人都是自私的；二、没有权威干预个人决策。也就是说，个人可以完全按照自己利益最大化的企图进行决策。在此前提下，合作要研究的问题是：第一、人为什么要合作；第二、人什么时候是合作的，什么时候又是不合作的；第三、如何使别人与你合作。

社会实践中有很多合作的问题。比如国家之间的关税报复，对他国产品提高关税有利于保护本国的经济，但是国家之间互提关税，产品价格就提高了，丧失了竞争力，损害了国际贸易的互补优势。在对策中，由于双方各自追求自己利益的最大化，导致了群体利益的损害。对策论以著名的囚犯困境来描述这个问题。

A和B各表示一个人，他们的选择是完全无差异的。选择C代表合作，选择D代表不合作。如果AB都选择C合作，则两人各得3分；如果一方选C，一方选D，则选C的得零分，选D的得5分；如果AB都选D，双方各得1分。

显然，对群体来说最好的结果是双方都选C，各得3分，共得6分。如果一方选C，一方选D，总体得5分。如果两人都选D，总体得2分。

对策学界用这个矩阵来描述个体理性与群体理性的冲突：每个人在追求个体利益最大化时，就使群体利益受损，这就是囚徒困境。在矩阵中，对于A来说，当对方选 C，他选D得5分，选C只得3分；当对方选D，他选D得1分，选C得零分。因此，无论对方选C或D，对A来说，选D都得分最多。这是A单方面的优超策略。而当两个优超策略相遇，即A，B都选D时，结果是各得1分。这个结果在矩阵中并非最优。困境就在于，每个人采取各自的优超策略时，得出的解是稳定的，但不是帕累托最优的，这个结果体现了个体理性与群体理性的矛盾。在数学上，这个一次性决策的矩阵没有最优解。

如果博弈进行多次，只要对策者知道博弈次数，他们在最后一次肯定采取互相背叛的策略。既然如此，前面的每一次也就没有合作的必要，因此，在次数已知的多次博弈中，对策者没有一次会合作。

如果博弈在多人间进行，而且次数未知，对策者就会意识到，当持续地采取合作并达成默契时，对策者就能持续地各得3分，但如果持续地不合作的话，每个人就永远得1分。这样，合作的动机就显现出来。多次对局下，未来的收益应比现在的收益多一个折现率W，W越大，表示未来的收益越重要。在多人对策持续进行下去，且W比较大，即未来充分重要时，最优的策略是与别人采取的策略有关的。假设某人的策略是，第一次合作，以后只要对方不合作一次，他就永不合作。对这种对策者，当然合作下去是上策。假如有的人不管对方采取什么策略，他总是合作，那么总是对他采取不合作的策略得分最多。对于总是不合作的人，也只能采取不合作的策略。

艾克斯罗德做了一个实验，邀请多人来参加游戏，得分规则与前面的矩阵相同，什么时候结束游戏是未知的。他要求每个参赛者把追求得分最多的策略写成计算机程序，然后用单循环赛的方式将参赛程序两两博弈，以找出什么样的策略得分最高。

第一轮游戏有14个程序参加，再加上艾克斯罗德自己的一个随机程序(即以50%的概率选取合作或不合作)，运转了300次。结果得分最高的程序是加拿大学者罗伯布写的"一报还一报"(tit for tat)。这个程序的特点是，第一次对局采用合作的策略，以后每一步都跟随对方上一步的策略，你上一次合作，我这一次就合作，你上一次不合作，我这一次就不合作。艾克斯罗德还发现，得分排在前面的程序有三个特点：第一，从不首先背叛，即"善良的"；第二，对于对方的背叛行为一定要报复，不能总是合作，即" 可激怒的"；第三，不能人家一次背叛，你就没完没了的报复，以后人家只要改为合作，你也要合作，即"宽容性"。

为了进一步验证上述结论，艾氏决定邀请更多的人再做一次游戏，并把第一次的结果公开发表。第二次征集到了62个程序，加上他自己的随机程序，又进行了一次竞赛。结果，第一名的仍是"一报还一报"。艾氏总结这次游戏的结论是：第一，"一报还一报"仍是最优策略。第二，前面提到的三个特点仍然有效，因为63人中的前15名里，只有第8名的哈灵顿程序是"不善良的"，后15名中，只有1个总是合作的是"善良的"。可激怒性和宽容性也得到了证明。此外，好的策略还必须具有的一个特点是"清晰性"，能让对方在三、五步对局内辨识出来，太复杂的对策不见得好。"一报还一报"就有很好的清晰性，让对方很快发现规律，从而不得不采取合作的态度。

[编辑]合作的进行过程及规律

"一报还一报"的策略在静态的群体中得到了很好的分数，那么，在一个动态的进化的群体中，这种合作者能否产生、发展、生存下去呢？群体是会向合作的方向进化，还是向不合作的方向进化？如果大家开始都不合作，能否在进化过程中产生合作？为了回答这些疑问，艾氏用生态学的原理来分析合作的进化过程。

假设对策者所组成的策略群体是一代一代进化下去的，进化的规则包括：一，试错。人们在对待周围环境时，起初不知道该怎么做，于是就试试这个，试试那个，哪个结果好就照哪个去做。第二，遗传。一个人如果合作性好，他的后代的合作基因就多。第三，学习。比赛过程就是对策者相互学习的过程，"一报还一报"的策略好，有的人就愿意学。按这样的思路，艾氏设计了一个实验，假设63个对策者中，谁在第一轮中的得分高，他在第二轮的群体中所占比例就越高，而且是他的得分的正函数。这样，群体的结构就会在进化过程中改变，由此可以看出群体是向什么方向进化的。

实验结果很有趣。"一报还一报"原来在群体中占1/63，经过1000代的进化，结构稳定下来时，它占了24%。另外，有一些程序在进化过程中消失了。其中有一个值得研究的程序，即原来前15名中唯一的那个"不善良的"哈灵顿程序，它的对策方案是，首先合作，当发现对方一直在合作，它就突然来个不合作，如果对方立刻报复它，它就恢复合作，如果对方仍然合作，它就继续背叛。这个程序一开始发展很快，但等到除了"一报还一报"之外的其它程序开始消失时，它就开始下降了。因此，以合作系数来测量，群体是越来越合作的。

进化实验揭示了一个哲理：一个策略的成功应该以对方的成功为基础。"一报还一报"在两个人对策时，得分不可能超过对方，最多打个平手，但它的总分最高。它赖以生存的基础是很牢固的，因为它让对方得到了高分。哈灵顿程序就不是这样，它得到高分时，对方必然得到低分。它的成功是建立在别人失败的基础上的，而失败者总是要被淘汰的，当失败者被淘汰之后，这个好占别人便宜的成功者也要被淘汰。

那么，在一个极端自私者所组成的不合作者的群体中，"一报还一报"能否生存呢？艾氏发现，在得分矩阵和未来的折现系数一定的情况下，可以算出，只要群体的 5%或更多成员是"一报还一报"的，这些合作者就能生存，而且，只要他们的得分超过群体的总平均分，这个合作的群体就会越来越大，最后蔓延到整个群体。反之，无论不合作者在一个合作者占多数的群体中有多大比例，不合作者都是不可能自下而上的。这就说明，社会向合作进化的棘轮是不可逆转的，群体的合作性越来越大。艾克斯罗德正是以这样一个鼓舞

贝叶斯

什么是贝叶斯纳什均衡?

贝叶斯定律？