博弈论 – 12Reads管理百科

什么是博弈论

所谓博弈论(Game Theory)，就是在存在多个局中人，各自的行为会对对方产生影响的情况(博弈)下，根据每个人的利益(效用)来预测对方的行为以进行决策的理论。博弈论作为制定经营及谈判战略时的思维框架非常有效。

博弈论诞生于20世纪初期，由数学家冯·诺伊曼(Von Neumann)与经济学家奥斯卡•摩根斯坦(Oskar Morgenstern)奠定了它的基础。博弈论是在当事人的行为相互影响的情况下追求自身利益（战略）的行为。从本质上看，与室内游戏相同，因此人们将这种理论命名为博弈论。博弈论本属于数学范畴，但人们逐渐发现这种理论在分析经济体系、企业经营中的决策与各种谈判机制时也非常有效，于是博弈论开始逐渐在社会科学的众多领域产生重大影响。

博弈论在商业中的应用

啤酒行业的价格竞争、汽车行业的车型更新战略、与交易对象的出货价格谈判……在竞争对手或谈判对象的行为会对自己的决策造成重大影响的情况下，事先制定好成熟的战略显得至关重要。这时，博弈论就会成为整理战略体系的有效工具。美国经常使用博弈型战略，不单是制定军事战略的中枢部门与制定外交政策的立案部门，就连大企业的营销部门与制定企业战略的部门也往往都配有博弈沦的专家。

博弈论思想也能灵活运用在谈判中。比如在理解谈判结构时，若借助支付矩阵或博弈树等工具对现状进行整理，就能对自己所处的情况有更明确的认识。

博弈论的基本概念

博弈的参加者叫局中人。局中人不仅限于个人，一个团队或是一个企业都能成为局中人。

博弈结束时，各局中人所能得到的结果被称为得失(payoff)。在博弈论中，假定局中人只为将自己的利益最大化而行动，不考虑伦理或是有所保留。就算有人希望成全他人，只要有自身所得与他人利益成反比这一前提，他就会将增加自己的所得变成博弈的唯一目的。

博弈通常分好几个阶段进行。在每个阶段，局中人都会从几个选项中选择特定的一种。策略决定了全盘的选择。策略不应在博弈途中决定。而应该在博弈开始前预测全局。事先制定妥当。

在确定博弈规则（局中人、策略、得失等博弈元素）后，各局中人在研究完策略之后，就应研究博弈将如何展开，会出现怎样的结果。探究博弈的结果叫解局。解局的前提是：各局中人都熟知博弈论，会根据博弈论制定合理战略，没有局中人会采用不合理的荒唐策略。虽然也有理论学家批判这种前提，但用这种前提推导出的结论也未必都与现实相距甚远。而且设定前提还有一个难以割舍的优点，就是能将复杂的人类行为的某个侧面直接简化、便于分析。

博弈论的定位如下图1所示。

图1：博弈论的定位

博弈的类型

博弈能根据局中人之间的决策时机、利害冲突的程度、局中人的人数、信息量的差别等标准进行分类。局中人必须对当前的博弈进行正确分析，明确其类型。分类乍看简单，其实不然。有些博弈看似有正面的利害冲突，但暗藏协调的余地，有时起初是两方相争，却突然冒出了第三方参与竞争。另外，根据对方的行为分析对方拥有多少信息也是决定能否掌握优势的关键，如图2所示。

图2：博弈的类型

以决策时机进行分类

根据局中人决策时机，将博弈分成序列博弈( Sequential Game)与同步博弈( Simultaneous Game)两种。在实践中，博弈者在选择行动时可能有先后顺序或某些局中人可能率先行动，这种博弈被称为序列博弈。在序列博弈中，局中人轮流进行判断与行动。各局中人要不断预测对方会对自己的行动做出什么反应，而自己要对对方的反应做出怎样的回应。以将棋（日本象棋）为例，棋手要思考的是：“我把角放在这儿，对方会用金来防守，那我就要……”

在同步博弈中，局中人要在不知道对方下一步行动的状态下决策。局中人知道还有其他人在局中，所以要一边预测其他局中人的行动，一边决定自己的策略。比如棒球的击球手准备击球时。要预测投手的下一个球是内角球还是外角球，是直线球还是变化球。这时投手也要预测击球手是如何选择球种与球路的，并出其不意。

再以竞拍为例。竞拍分序列博弈与同步博弈两种。比如伦敦的索斯比拍卖行拍卖画作时，就是由竞拍者逐渐提价，出价最高者为胜，这种方式被称为英式拍卖( English Auction)，属于序列博弈。而另一方面，公共事业项目的竞标由建筑公司将投标价格写在纸上，给出最低价的公司获胜。这种方式被称为密封投标拍卖（Sealed-bid Auction），属于同步博弈。自然，参加者的策略要视拍卖类型的不同而不同。

其他分类

可以根据局中人的利害冲突程度，将博弈分成零和博弈( Zero Sum Game)、正和博弈(Plus Sum Game)与负和博弈(Minus Sum Game)三种。零和博弈指的是一方的收益必然意味着另一方的损失，博弈各方的收益和损失相加总和永远为零。大多数室内游戏以及商场中的单纯价格谈判就属于这种类型。正和博弈指某个局中人的利益不一定会造成其他局中人的损失。与对方合作也有可能使双方都增加收益。因此非常重要的是，局中人需要在竞争的同时进行合作，因此正和博弈亦称为合作博弈。负和博弈指的是两者的得失合计为负，是一种两败俱伤的博弈。在商业活动中，必须极力避免这种情况。

除此之外，还有用局中人的人数进行分类的方法。具体类型有两人博弈、三人博弈、多人博弈等等。根据关注局中人所掌握的信息量进行分类，可以分为信息对称博弈（各个局中人完全掌握博弈规则与自己所处的情况等信息）与信息不对称博弈（局中人没有完全把握这些信息）。

同步博弈(1):占优策略、劣势策略

处理同步博弈时，可绘制一张支付矩阵，通过一览表，看清不同选项会对自己与对方带来怎样的得失。如果有利于自己的占优策略，那大可照办，若对方有占优策略，就必须以对方会采取占优策略为前提进行分析。

丰田、日产的车型更新策略

在同步博弈中，局中人要在不知道对方下一步行动的状态下进行决策。换言之，各个局中人需要一边预测对方的行动，一边要选择自己需采取的行动。从本质上看，汽车公司的新产品竞争也算是同步博弈。如果要进行大规模的车型更新换代，就要从零部件的设计开始，加上试做产品与生产流水线的建设，从设计到实际生产至少需要三年以上的时间。新车型的信息是发表会前的一级机密，因此汽车公司必须预测竞争对手会在同一时期推出怎样的新车型，再决定自身的行动。

图3：丰田、日产的份额

以几乎同时推出新车型的丰田Mark Ⅱ与日产花冠为例。双方的决策过程是什么样的呢？其实车辆的更新换代涉及设计、性能、价格等方方面面，但在这个例子中，可以将问题简化成：是方角设计还是圆角设计？

假设图3表示的是两家企业选择哪种设计会带来多少销售份额（亦称支付矩阵）。丰田的销售力更强，如果车型的设计与日产相似，那就能获得比日产更高的市场份额。换言之，如果日产选择圆角设计，那丰田也推出圆角设计时获得的份额是60%，方角设计则是50%。如果日产选择方角设计，那丰田推出圆角设计时获得的份额是65%。方角设计则是70%。

在这种情况下，无论丰田采取怎样的策略，日产都应该选择圆角设计。因为无论丰田选择圆角设计（日产的份额为圆角40%、方角35%）还是方角设计(日产的份额为圆角50%、方角30%），能让日产获得较高市场份额的都是圆角设计。

无论其他局中人采用怎样的策略，某种策略都能让自己获得较高利益——将这种策略称为占优策略(Dominant Strategy)。一般情况下，拥有占优策略的局中人就应该选择这种策略，无论其他局中人做出怎样的选择。而另一个局中人则应以对方选择占优策略为前提进行思考。在这场博弈中，日产当然会选择一定能带来较高份额的圆角设计（占优策略）。而丰田则应以日产采用圆角设计为前提，也选择圆角设计。最后结果就会落在图3的左上象限。

车型更新策略的衍生

再进一步来看，如图4的支付矩阵所示，假设丰田还有第三个选择：不更新车型。对丰田而言，无论日产做出怎样的选择。这个策略都劣于另外两种策略。无论其他局中人采取怎样的策略，自己的所得都较少——将这种策略称为劣势策略( Dominated Strategy)。

图4：如有“不更新”的选项

在图4的博弈中，丰田和日产似乎都没有占优策略。但丰田不可能选择不更新换代，因此可以排除这一选项。那就意味着图4会变回图3，即丰田和日产都会选择圆角设计。换言之，存在劣势策略时，大可将其排除。

同步博弈(2):囚徒困境

在囚徒困境中，各局中人如果选择占优策略，就会给双方招来恶果，个人最佳选择并非团体最佳选择，反而不如双方合作，采取看似较差的策略。这种例子在现实社会中比比皆是。

囚徒困境

在博弈论中，最为出名的博弈莫过于囚徒困境( Prisoner’s Dilemma)。这场博弈的主人公是两个犯罪嫌疑人A与B(局中人)。警方先用另一项罪名逮捕了他们，虽然他们涉嫌该案的可能性很高，但由于没有确凿证据，因此警方只能将他们分别关在不同的房间里进行审问。A与B的选项有“坦白”与“不坦白”。如果两人同时坦白，两人将各获5年有期徒刑。如果两人都不坦白，两人将各获2年有期徒刑。如果一方坦白，另一方不坦白，那坦白者将功赎罪，无罪释放。而不坦白者则会获刑30年。在这种情况下，A与B会做出怎样的选择呢？

先讨论博弈的类型。两人被关在不同的房间里，不知道另一人会做出怎样的选择，因此这算是同步博弈。先站在A的角度看：如果B不坦白，那A坦白（无罪）的刑期要比不坦白（2年）更短，就算B坦白了，也是坦白（5年）比不坦白（3年）更好。换言之，A的占优策略是“坦白”。同理，B的占优策略也是“坦白”，因此博弈结果是双方坦白，每人获刑5年。

然而这并非最理想的结果。如果A、B合作都不坦白，那只要坐2年的牢就够了。各局中人选择占优策略，反而会招致比合作更坏的结果——这种博弈被称为“囚徒困境”。

在这类博弈中，必须注意的是：局中人虽有协议，但这也意味着他们不得不采取对其自己不利的策略（非占优策略）。因此其中往往包含着背叛的动机。换言之，就算两人事先商量好了都不坦白，一旦分开受审，就会有背叛对方以换得无罪的动机作祟。

囚徒困境的事例

囚徒困境的事例在商界屡见不鲜。在石油化学行业的过度竞争体制导致第二次石油危机后，石油行业极度不景气。于是在日本通产省（即现在的日本经济产业省）的号召下，各家企业达成一致，根据《特定产业结构改善临时处理办法》。对产业结构进行改革，具体措施包括暂停或废除过剩的设备运作等等。其实此举的意图是让各家企业合作减产，维持一定的价格水平。可对各家企业而言，不减产才是占优策略，因此几乎没有企业会停用过剩的设备。虽然处理办法没有明确不遵守协议会有什么惩罚措施，但对整个行业来说产生了负面影响。

企业在竞争时常会陷入囚徒困境的局面。比如电视广告竞争、降价竞争、新产品问世的竞争等等。要避免囚徒困境，可引进惩罚机制（比如背叛了会遭到报复）。但这种报复须有较高的“可行性”，且必须是各局中人能充分认识到的。除了报复，还可以采取反复多次进行博弈（不让局中人赢了一次就跑）以及旁支付（Side Payment守约就给报酬）等回避方法。

具有讽刺意义的是，在某些行业，翻来覆去都是那几家企业参加竞标。在这种情况下，围标（串通投标）算是家常便饭。这是各局中人为了创造出有利于各家的情况而通力合作的结果（虽然从社会正义角度看此举并不妥当）。

同步博弈(3):情侣博弈

情侣博弈是一种同步博弈。各局中人同意经过协调后行动。但各方对协调方法持有不同意见。这种博弈的特征是：存在多个纳什均衡。就算均衡点对双方而言并非最优，可一旦达到均衡，要是对方不改变行动，就不会有自己单方面改变行动的诱因。

情侣博弈

与“囚徒困境”同样著名的博弈事例是情侣博弈( Battle of Sexes)。具体情况如下：

晚餐后，男方想去看拳击比赛，而女方则想看音乐剧。但双方都觉得两个人一起去比一个人去更开心。换言之，各局中人同意经过协调后行动，但各方对协调方法持有不同意见。

纳什均衡

情侣博弈的特征是博弈的均衡点（各局中人能接受的结果）有两个。而之前介绍的博弈都只有一种合理策略。但情侣博弈的均衡点有两个：一起去看拳击或一起去看音乐剧。而且无论到达哪个均衡点，都会有一方不用改变选择。以其他局中人的行为为前提来看，双方的行为都是最优的选项，因此没有改变行为的诱因存在。将这种均衡点称为纳什均衡。它的定义是：各局中人的策略组合一旦确定，每个局中人都没有足够理由打破这种均衡，改变自己选择的策略组合。

纳什均衡不一定是博弈的最理想结果。继续用那对情侣的例子。假设他们在犹豫是去看音乐剧还是看电影，这时的纳什均衡就是一起去看音乐剧和一起看电影。一起看电影的满意度明显低于另一种。然而，就算是较差的纳什均衡，一旦达到均衡，双方都不会有足够的理由去打破均衡状态，因此极难变更。只有两位局中人通力合作，同时改变选项，才能达到对双方最为理想的均衡点。

情侣博弈的事例

“情侣博弈”的事例在商界非常常见。比如纸张的尺寸规格有A与B两种。外国多用A，但日本的传统规格是B。双方都希望统一纸张尺寸。民营企业因为要进行国际交易，希望采用A尺寸，而政府部门无所谓。这就导致双方陷入右下象限的纳什均衡，虽然这一均衡点较差，但无法跳出沿袭旧例的习惯。这时，民营企业先一步换成A，导致政府部门不得不跟上。虽然此举会导致暂时性的尺寸不统一，产生一定的成本，但这毕竟加快了政府部门与民营企业双方改变纸张尺寸的速度。

除此之外，两种电脑操作系统（Windows与Mac OSX）的统一也是一种情侣博弈。双方的用户都认为统一规格有好处，但就统一方法持不同意见。

同步博弈(4):混合策略

在同步博弈中，如果仅靠占优、劣势、纳什均衡还不足以制定策略，就可以混用多种策略，即混合策略。而只采取一种策略的做法被称为纯策略。

点球的成功率

在同步博弈中，有些博弈无法根据占优策略、劣势策略进行解释。比如局中人的策略要根据对方的行动而改变的情况。以足球为例：

罚点球时，射手要站在距离球门9.15米的位置，与守门员一对一比拼。守门员要预测点球的方向，在射手踢球的同时扑向自己所预测的方向。因此罚点球属于同步博弈。

某射手擅长攻击守门员的左侧，射手攻击左侧时，守门员如果扑向右侧，则射门成功率为90%，扑向左侧的成功率为40%。如果射手攻击右侧，守门员扑向左侧的射门成功率为60%。，扑向右侧的成功率为30%。

将只选一个(比如左还是右)的策略称为纯策略(Pure Strategy)。在罚点球中，射手和守门员都要根据对方的选择采取不同策略，因此不存在占优策略或是劣势策略与满足纳什均衡的纯战略。

降低射门成功率的策略

在这场博弈中，如果守门员一直扑向左侧，射手就能预测出他的走向，攻击右侧，射门成功率为60%。如果守门员一直扑向右侧，射手就能攻击左侧，成功率高达90%。然而，如果守门员的动作是随机的，就能降低射门的成功率。基于一定概率将自己采取的行为随机化的策略即为混合策略(Mixed Strategy)。