囚徒困境：为什么个体逐利不一定带来集体最优？花剌子模信使问题

lichengxin • 2025-03-02 04:06 • 杂文

囚徒困境：为什么个体逐利不一定带来集体最优？

最典型的一种完全信息静态博弈，也就是大名鼎鼎的“囚徒困境”。

现实生活中，经常遇到一种局面：明明合作对于集体来讲是最优的选择；然而，个体被诱惑选择背叛，最终背叛者没捞到好处，还连累集体一起遭受损失。这就是囚徒困境。

为什么会出现这种局面？不就是因为人人都追求自己利益最大化吗？但问题并没有这么简单。在很多时候，个人追求自己的利益最大化，并不必然导致集体的利益受损。为什么囚徒困境会导致集体利益的受损？囚徒困境中有什么特殊之处？

囚徒困境

两个经常一起偷东西的小偷A和B，又一起去作案，结果被警察逮了个正着，警察对他们分开审讯。

这时候，每个小偷都有两个选择：选择坦白，供述以往的犯罪事实；或者选择抗拒，保持沉默。

两个小偷都知道，如果他俩都选择抗拒的话，警察只能以这次的犯罪事实定罪，判少量的刑，坐牢半年。

但警察为了激励他们招供，就对他们说：如果他们中一个人坦白，告发他的同伙，就可以获得奖励，当场释放。而他的同伙则会被加重处罚，坐5年牢。可以把这里理解为“坦白从宽、抗拒从严”。而如果两个人都选择坦白，就会按照以往的犯罪事实一起来定罪，既不会被奖励，也不会被加重处罚，两人各坐3年牢。

以上就是全部的博弈规则。

站在局外，可以很清楚地看到，对于两个囚徒来讲，他们集体最优的选择是合作，也就是两个人都选择抗拒，然后各坐半年牢。

但是，从个体最优的角度考虑，不管对方怎么选，他们各自最优的选择，都是坦白。为什么？

这里稍微有点绕，从A的视角出发：

在B选择坦白的情况下，对A来说，选择坦白的结果是坐3年牢；选择抗拒的结果却是要坐5年牢，选择坦白比选择抗拒更好。

在B选择抗拒的情况下，对A来说，选择坦白的结果是不用坐牢；选择抗拒的结果还是要坐半年牢，选择坦白仍然比选择抗拒更好。

无论B的选择是什么，对A来讲，坦白都是比抗拒更好的选项。博弈论把这种选项称为“占优策略”。

占优策略，简单地说，就是一种以不变应万变的策略，无论对手如何反应，自己的最佳选择都是固定的一种。依据之前的理性假设，一个人只要有占优策略，一定会选择该策略。

对B来讲，坦白也是他的占优策略。于是，困境就来了，他们都选坦白的这个占优策略，却会获得集体最糟的结果，两个人各坐3年牢。

其实，近半个世纪以来，很多领域的学者之所以如此关注这个困局，并不是因为这个困局有趣，而是因为市场经济带来的经济繁荣，让我们习惯性地接受了经济学的一个基本结论：个人追逐自身利益的最大化，能够带来社会整体福利的最大化。这就是亚当·斯密的“看不见的手”的魔力。

但是，囚徒困境的出现，给我们浇了一盆凉水。个人追求自身利益的行为，可能并不带来集体利益的最大化，并且反过来还会损害自己的利益。这就多少让我们这些受惠于市场经济的现代人有些无所适从。

难道经济学错了吗？难道需要否定人对自身利益最大化的追求吗？

一般化条件

为了更清晰地分析这个问题，需要看一下囚徒困境的一般化条件。

什么是一般化条件？同样是讲囚徒困境，在不同的地方，两个囚徒坐牢的时间是五花八门的，前面用的是（0，-0.5，-3，-5），还有的地方是（0，-1，-5，-10）。其实，具体数字是几不重要，所谓囚徒困境的一般化条件，就是找到这几个数字之间的大小关系，也就是要求背叛的诱惑>合作的奖励>共同背叛的惩罚>受害者的损失。

为了后面表达方便，这四个参数用四个字母代替：

T（Temptation），表示一方坦白、一方抗拒，也就是一方选择合作、一方选择背叛时，坦白方的收益，也就是背叛的诱惑。刚才的例子里，背叛诱惑就是无罪释放，T=0。

R（Reward），表示双方都不坦白，都选择抗拒时，双方的收益，也就是合作时的奖励。刚才的例子里，合作奖励就是各判0.5年，R=-0.5。

P（Punishment），表示双方都坦白，也就是都背叛对方时，双方都会受到的惩罚。刚才的例子里，共同背叛的惩罚就是各判3年，P=-3。

S（Sucker），代表一方坦白、一方抗拒，也就是一方选择合作、一方选择背叛时，选择合作这一方所遭受到的损失。刚才的例子里，选择合作但被背叛的损失就是判5年，S=-5。

很明显，背叛的诱惑T（0），大于合作奖励R（-0.5），大于共同背叛惩罚P（-3），大于受害者损失S（-5）。

这就是囚徒困境成立的第一个条件：T>R>P>S。注意，T>R>P>S，一定是这样的大小关系。稍微改变一下，囚徒困境可能就不成立了。

举个例子，如果S和P相等，也就是即便被背叛，也不会多坐牢，那两个人就不会有那么强的动机选择背叛，而是更可能合作，也就是都选择抗拒了。

讲到这里其实有一个问题，条件一虽然有四个参数的大小关系，但是跳出来看，无非还是在说，人经不住利益的诱惑。但人性总是贪婪的，都会追逐更大的利益，在哪里都是一样的，怎么在这里就造成囚徒困境了呢？

这就要说到囚徒困境成立的第二个条件：R-S>T-R（等同于2R>T+S）。

强负外部性

这第二个条件的现实意义是什么？

这个不等式，先看后面的T-R，这代表一个人由合作转到背叛所增加的收益，在开头的例子里就是0减-0.5，等于0.5年；再看前面的这个R-S，这代表一个人选择背叛之后，对别人造成的损失，在开头的例子里就是-0.5减-5，等于4.5年。4.5显然大于0.5，于是R-S>T-R。

R-S>T-R合起来意思是什么呢？就是背叛给当事人所增加的那部分收益，抵不上背叛给他人带来的损失。没有这第二个条件，光有前面的第一个条件，囚徒困境也不能成立。

理解这一点，来看一个更简化的例子。

现实中，人们最喜欢的局面是双赢。不合作，双方收益都是0；跟人合作，我得800，你得800。这是最理想的局面。

然而，如果你现在面临一个选择，你仍然可以得到800的好处，但是代价却是别人会承受1000的损失。你会选吗？这一刻，想必你肯定是会犹豫的。

为了更清楚地看到囚徒困境的微妙之处，我们把这个选择题做个变形：还是我得到800的收益，但如果别人的损失不是1000，而是600呢？

分析博弈论的问题，我们可以暂时放下背叛对不对的道德判断，而是只考虑赤裸裸的利益。

和（800，-1000）相比，（800，-600）这个局面相对就没那么难接受了。因为，尽管第二个人承受了损失，但两个人加起来，还是有净收益的。有净收益，就有腾挪的空间。大不了，别人损失的600，我补给他，这样我还是净赚了200。同样的，他也可以对我这么操作。

但是你会发现，如果是（800，-1000），这个腾挪的空间就消失了，不管是谁参与这个博弈，他的理性选择，都使社会总收益变少。这就不仅仅是个体的困境，也是社会的困境。

在这里，可以引入经济学上的一个重要概念：负外部性。意思是，在我们获得利益的时候，别人的利益会受到损害。比如公共场所吸烟，吸烟的人腾云驾雾爽得不行，边上的人则跟着受罪，就是典型的负外部性。在囚徒困境中，R-S就相当于是T-R所带来的负外部性。

作为现代人，并不否认人对利益的追求，人就是会被诱惑，这是人性；也不可能把人改造成能够抵制诱惑，处处为别人设想的新物种。

然而，当追求更大的利益的时候，要是由别人承担相应的损失，并且别人的损失比我们的收益还大时，我们会反思。

还可以进一步区分两种负外部性，一种是强负外部性，一种是弱负外部性。这是我自己创造的一组概念。

背叛给别人造成损失，但社会净收益有增加，可以称之为弱负外部性；背叛给别人造成损失，社会净收益会因此减少，我们可以称之为强负外部性。囚徒困境成立的第二个条件R-S>T-R就是强负外部性。

北大的张维迎教授曾问过一个问题：马路上两家店卖相同的东西彼此竞争，其中一家店通过降价干掉对方和通过堵门让对方无法营业干掉对方，这两者有何不同？

人们一般的想法是一个合法、一个非法。但问题是为什么前者合法后者非法？如果咱们不从法理的角度分析，而是从博弈论的角度分析，原因就在于，前者虽然损害了竞争对手的利益，但是提高了社会整体的福利水平，是弱负外部性，是一件总收益大于总损失的事情；后者则会带来社会总体福利的损失，是强负外部性。

囚徒困境中，背叛者追求更大利益的方式，就有点类似于堵门不让人家营业。这也正是“看不见的手”跟“囚徒困境”的根本区别。

囚徒困境产生的原因

第一个条件，T>R>P>S。这个条件我们可以概括成下面4句话：

首先，人性禁不住考验，一个大大的诱惑T会吸引到每个人，让大家放弃合作的奖励R，去选择背叛的行为。

其次，背叛的好处T，归自己享受，而代价S，由别人承担。

再次，我们这么想的时候，对方也是这么想。

最后，当双方都这么想，都选择背叛，偷鸡不成蚀把米，双方都受到惩罚P。

第二个条件，R-S>T-R，也就是背叛带来的收益增量，小于给别人带来的损失增量。

实际上，囚徒困境深刻地揭示了这么一个社会问题：

如果每个参与人都在做一系列损人大于利己的事情，整个社会就会陷入一个彼此伤害的困境中去。

这正是无数学者都来研究囚徒困境的原因。

知识点二：花剌子模信使问题

1995 年，王小波在《读书》杂志发表了这篇叫做《花剌子模信使问题》的文章。这是一篇你只要读过就不会忘记的文章。王小波说 ——

“据野史记载，中亚古国花剌子模有一古怪的风俗，凡是给君王带来好消息的信使，就会得到提升，给君王带来坏消息的人则会被送去喂老虎。……花剌子模的君王有一种近似天真的品性，以为奖励带来好消息的人，就能鼓励好消息的到来，处死带来坏消息的人，就能根绝坏消息。”

王小波主要是在批评那些不但自己听不得坏消息、而且还要惩罚带来坏消息的学者的那些领导干部。学者搞学术研究总不能预设立场，只有真实的结论才有用。惩罚带来坏消息的学者会把国家变成谎言之国……可惜王小波的话并没有带来什么重大改变，敢于带来坏消息的信使更少了。

所以花剌子模君王的毛病是根深蒂固的。事实上，不光是领导，也不光是中国人，是古今中外每个人都有这个毛病。英文世界对此有个专门的名词，叫“射杀信使（shoot the messenger）”，意思就是当听说一个坏消息的时候，我们会因为不喜欢这个消息，而连带地想要把带来消息的人给干掉。

不过这通常不是因为出于策略性的考虑，想要以此来杜绝坏消息。哈佛商学院的莱斯利·约翰（Leslie K. John）、海莉·布兰登（Hayley Blunden）和刘黑迪（音译，Heidi Liu），最近发表一项研究，认为“射杀信使”，是人的一个心理本能。

研究者做了几个非常简单的实验。一个实验是抽奖，研究者提供了一个帽子，里面放了很多纸条。抽一个纸条出来，如果上面写着中奖，受试者就能得到 2 美元。有两个实验人员参与抽奖，一个负责帮受试者从帽子里抽纸条，一个负责告诉受试者中奖没有。

结果，统计发现，如果没中奖，受试者就会很不喜欢那个负责通知他中奖与否这个消息的实验人员。

但这肯定是非理性的！因为那个实验人员只是负责通知消息而已，她不是替受试者抽奖的人，抽奖结果在她之前就已经定了，她只是一个信使！

＊

人在做自己熟悉的事情的时候是非常理性的。听一个陌生人告诉自己坏消息肯定不是我们熟悉的事情。那我们为什么会有这种非理性的情绪呢？是不是因为坏消息影响了我们的心情，从而导致看谁都不顺眼呢？

并不是。设想这么一个场景。现在航班要晚点两小时，机场安排了两个工作人员来把这个坏消息通知给登机口正在焦急等待的旅客。两个工作人员看上去没什么区别，只是他们中的一个人负责宣布这个消息，另一个人只是站在他旁边。那如果人们憎恨信使是因为心情不好迁怒于人，旅客应该对这两个工作人员都不喜欢才对。

但实验结果是旅客只憎恨那个宣布消息的人。

那这是什么道理呢？研究者认为，这是因为我们想要一个解释。一个坏事发生了，理性考虑可能有各种原因，也许事发纯属偶然，也许就是我们自己的原因 —— 但是我们本能地，强烈地想要把坏事发生的原因归于别人，我们必须找一个能责备的人。那么说出这个消息的人，就是我们最直接的责备对象。

如果你跟这个消息无关，你为什么要告诉我这个消息呢？

这是一个非常不讲理、但是又非常自然的情绪流动。研究者还有更惊人的发现。比如说一个病人去医院做皮肤癌检查，检验完毕，一个医生告诉病人，说病理的结果是你得了皮肤癌 —— 那么实验表明，病人不但会因此而不喜欢这个医生，而且还会认为是这个医生*希望*他得癌症！

＊

如果是这样的话，花剌子模君王如果要杀死医生，就是可以理解的：谁让你盼着我得癌症的？

也许君王真的认为杀死坏消息信使能在一定程度上杜绝坏消息。放着那么多好人好事你不研究，你为啥非得研究这些阴暗面？难道不是因为你的希望就是如此吗？

想想在生活中是不是也是这样。你满怀关切之意，告诉亲友一个坏消息，结果他对你产生了敌意。……而且我这里也有一个坏消息 ——

当别人满怀关切之意告诉你一个坏消息的时候，你也会对他产生敌意。

在职场中，这样的事情屡见不鲜。心理咨询师曾旻分享过这么一个故事，说一个朋友发现工作中的一个问题，报告给了领导。这个问题不解决就会大大影响工作质量，于是整个团队连续加班两星期，把问题解决了。但是，不但领导没有因此表扬他，团队的同事更是对他有意见。

根据这个研究结果，大家在心理上，有那么一丝情绪，认为是他导致了这个问题。当然没有人会承认自己有这个想法，但是那个情绪一定在那里。

＊

那你说有没有什么办法，能让我们避免这个非理性的情绪呢？比如说，我们能不能给人普及一下这个心理学知识，告诉大家信使就只是信使，信使没有导致坏消息呢？

哈佛这几位研究者认为这是不太可能有什么效果的。对此我完全理解。我们专栏以前讲过，像“安慰剂效应”，其实纯粹是起源于心理上的，但是哪怕你知道有安慰剂效应，你还是会产生安慰剂效应。

情绪这个东西，你无法阻止它出现 —— 你所能做的只有在它出现以后，识别它、接受它、观摩研究它，然后才能跟它分离。而那是一个非常不一般的功夫。

＊

所以，“射杀信使”的原理，最直接的教训，就是……不要当那个信使。

有什么坏消息尽量让别人去说。这也可以说是为什么尽量不要给人提供负面的反馈。

……当然这是不负责任的做法，所以得修改一下 —— 如果你不得不传递一个坏消息，那你应该想办法让对方相信，你完全是出于好意。如果做不到这一点，那你至少应该有个思想准备，对方会有一种想要射杀你这个信使的冲动。

＊

而另一个教训，则是不要射杀那个信使！想要严肃认真地做点大事，你就得学会用理性克制自己的非理性冲动。说到这里倒是有一段典故。

文史学者胡文辉，曾经专门考证过，王小波说的这个“花剌子模君王杀信使”的典故，到底是出自哪里呢？结果他没找到，连野史的记载都没有。王小波总不至于凭空杜撰一个故事，就算要杜撰，为啥非得是花剌子模呢？要知道花剌子模是中亚历史上一个被成吉思汗的蒙古大军灭亡了的国家，并没有留下多少典故和传说。

英文维基百科中“射杀信使”的条目中，说这句常用语的来源之一，是来自中国的“两国交兵不斩来使”这句话。而花剌子模在真实历史上，就的确发生了一次斩杀来使的事情！

原来当初成吉思汗本来没想灭掉花剌子模。一开始，成吉思汗想跟中东国家建立商贸往来，派了一支 500 人的商队，前往中东做生意。商队途经花剌子模，被该国一个官员给扣下来了，而且那个官员下令杀死了商队几乎所有的人，只放跑了一个。成吉思汗得知此事大怒，但是就是这样，也没说要灭掉花剌子模。

成吉思汗给花剌子模君王派去了一名信使。

信使带来成吉思汗的要求是斩首相关官员，开通商路。

但是也不知道花剌子模国王脑子里是怎么想的，他杀死了信使。这是唯一一次，花剌子模君王杀死信使事件。

也就是因为这个事件，成吉思汗调动 20 万蒙古大军灭掉了花剌子模。

所以，想要杀死信使是一种正常的人类本能，但是，别杀信使。尤其是别杀成吉思汗的信使！

版权声明：
作者：lichengxin
链接：https://www.techfm.club/p/194803.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

数学社会

二维码

3.2

< <上一篇

唐诗三百首—7

下一篇>>

搜索内容

囚徒困境：为什么个体逐利不一定带来集体最优？花剌子模信使问题

取消回复

共有 0 条评论

Ads

囚徒困境：为什么个体逐利不一定带来集体最优？ 花剌子模信使问题

取消回复

共有 0 条评论

Ads

囚徒困境：为什么个体逐利不一定带来集体最优？花剌子模信使问题