可以用博弈论解释论语或者其他先贤著作吗？第1页

DolbyWang 网友的相关建议:

这个问题挺有意思的。在大学学过一点博弈论，高中背过一点论语。

“博弈”一词在汉语中最早就见于论语：

子曰:「飽食終日，無所用心，難矣哉！不有薄亦者乎，為之猶賢乎已。」
—— 《论语 · 第十七章 · 阳货篇》

孔子口中的“薄亦者/博弈者”指的是下棋的人。

弈，棋；博，比赛、对抗；博弈，即指下棋比赛。

虽然我们古代先贤没有把博弈理论化，但是《论语》和其他古文经典早有体现出博弈的思想。

我们后人可以用博弈论来系（生）统（搬）阐（硬）释（套）这些思想。

-------------------------------- 《论语》/《呂氏春秋》----------------------------------

或曰：“以德报怨，何如？”
子曰：“何以报德？以直报怨，以德报德。”
—— 《论语 · 宪问》

“以直报怨，以德报德”实际就是孔子提出的针对重复囚徒困境的一个有效策略 —— tit-for-tat（一报还一报）。

在单次囚徒困境中，一个单纯策略纳什均衡是双方都选择“报怨”，但是在重复的囚徒困境中，通过“重复上一轮对方的选择，即一报还一报”这个策略可以有效的使得双方都选择合作从而利益最大化，因此双方都“以直报怨，以德报德”是一个纳什均衡（Nash equilibrium）。

但是如果双方都采用“以直报怨”策略，一旦某方由于失误（手抖）或者误解（迷糊）从而进入“怨”的循环，对双方都不利，有什么方法可以打破这个僵局呢？

子贡问曰：“有一言而可以终身行之者乎？”
子曰：“其恕乎！己所不欲，勿施于人。”
—— 《论语 · 卫灵公》

“其恕乎！己所不欲，勿施于人”则是孔子针对 tit for tat 策略的改进版 —— generous tit-for-tat（慷慨的一报还一报）。首先，既然大家都不喜欢被“报怨”，则“勿施于人”；其次，即使我发现对方“报怨”，我仍然有几率宽恕对方，“报德”而不“报怨”，从而避免了恶性循环。“重复上一轮对方的选择，但是被背叛时仍有几率选择原谅”这个策略可以有效的使得双方都选择合作从而利益最大化，同时引入了纠错机制，因此双方都“以直报怨，以德报德”+“其恕乎！”是一个颤抖手精炼均衡（trembling hand perfect equilibrium）。

*关于 tit-for-tat（一报还一报）和 generous tit-for-tat（慷慨的一报还一报）请参考：

博弈论里的囚徒困境怎么解决？ - 忆唯的回答 -

博弈论里的囚徒困境怎么解决？

魯國之法，魯人為人臣妾於諸侯、有能贖之者，取其金於府。
子貢贖魯人於諸侯，來而讓不取其金。
孔子曰：「賜失之矣。自今以往，魯人不贖人矣。取其金則無損於行，不取其金則不復贖人矣。」

子路拯溺者，其人拜之以牛，子路受之。
孔子曰：「魯人必拯溺者矣。」
孔子見之以細，觀化遠也。
—— 《呂氏春秋 ‧ 察微》

在“做好事留不留名”这个重复博弈中，大家都处于“你留名我也留名，你不留名我也不留名，因此我们做好事都留名”（左上）这个纳什均衡中。但是子贡率先打破了均衡，选择了“做好事不留名”。虽然子贡一时获得了更高的名誉收益（左下），但是由于他打破了均衡，以后的好人迫于道德压力就都只能选择“做好事不留名”，反而使得大家未来的预期名誉收益都下降了（右下）。因此孔子批评了子贡，表扬了子路。

而孔子所最重视的“仁义”可能和博弈论对博弈者的假设不太一样。一般博弈论假设双方都是自私自利，最大化自己利益的（效用方程只考虑自己），也就是孔子所鄙视的“小人”。

子曰：“君子喻于义，小人喻于利。”
—— 《论语 · 里仁》

所以基础博弈论里的假设大家都是小人。而“君子”所重视的“仁义”，可能和社会资本（social capital）这个概念比较像，在博弈论中引入了信任与合作。

-------------------------------- 《史记》/《孙子兵法》----------------------------------

孙子曰：“今以君之下驷与彼上驷，取君上驷与彼中驷，取君中驷与彼下驷。”
—— 《史记》卷六十五《孙子吴起列传第五》

在田忌赛马博弈中，齐王和田忌各有6种单纯策略。在一次单独的比赛中，齐王可能会被孙膑的策略坑到，但是如果比赛重复地进行下去呢？显然，齐王会吸取经验，不会继续采用原来的固定的单纯策略，双方都会采取混合策略。

田忌赛马的博弈对局存在一个混合策略均衡，就是双方都会以相同的概率选择每种赛马出场顺序。如果双方都采纳这个均衡策略，每六场比赛，由于齐王的每种马都比田忌的好一点儿，齐王平均能赢五场，而田忌平均只能赢一场（叶立新毛亮，2016）。

*这里关于田忌赛马的正则表示采用了：

「田忌赛马」的战略可以用博弈论解释吗？ - Richard Xu的回答 - https://www.zhihu.com/question/19773994/answer/54164949

很多学者都使用通过博弈论研究过田忌赛马，还把田忌赛马问题一般化了：

On Generalized Tian Ji’s Horse Racing Strategy

—— 孙斌策略的高明之处在于“牺牲部分利益以获得更大的整体利益”。

Game-theoretic analysis of an ancient Chinese horse race problem

—— 在只有一个最终奖励（one-unit payoff）的情况下，双方应当使用同概率的混合策略。

兵者，诡道也。
故能而示之不能，用而示之不用，近而示之远，反之亦然。利而诱之，乱而取之。
—— 《孙子兵法 · 计篇》

（《史记》里的孙子指的是孙膑，《孙子兵法》应当是孙武所著。）

“兵者，诡道也”强调的就是在不完全信息博弈中，混合策略的重要性。

“我军应当选择进攻，因为收益高（左上），但是敌人也这样想的话，敌人会推测我军选择进攻，他们就会选择撤退（右上），那么我军应该选择撤退。但是 …… ”

这样会形成一个推理循环。单纯策略是没有均衡的，唯一的一个混合纳什均衡可以解得是“我军选择的几率进攻，几率撤退；敌军选择的几率进攻，几率撤退”。

践墨随敌，以决战争。
—— 《孙子兵法 · 九地篇》

“践墨随敌”强调的就是序贯博弈（sequential game）中，要根据对手的选择行动。也就是作战中根据敌情而定，敌变我变，随机应变。

如果敌军先行，选择了U，则我军应当选择D’，双方回报为（2,1），对我军来说，比选择U’的（0,0）要好；如果敌军选择了D，则我军应当选择U’，双方回报为（1,2），对我军来说，比选择D’的（3,1）要好。

-------------------------------- 《三国演义》----------------------------------

瑤琴三尺勝雄師，諸葛西城退敵時。
十五萬人回馬處，後人指點到今疑。
—— 《三國演義》第95回

空城计是一个信息不对称的博弈。

在空城计博弈中，司马懿不知道自己和诸葛亮在不同行动策略下的支付，而诸葛亮是知道的，他们对博弈结构的了解是不对称的。诸葛亮的“空城计”加了大司马懿对进攻失败的主观概率。司马懿说：“亮平生谨慎，不曾弄险。今大开城门，必有埋伏。我兵若进，中其计也。”此时，在司马懿看来，进攻失败的可能性较大，而退兵的期望效用大于进攻的期望效用，因此同样谨小慎微的司马懿选择了撤退（天群，2004）。

曹瞒兵败走华容，正与关公狭路逢。
只为当初恩义重，放开金锁走蛟龙。
—— 《三國演義》第50回

华容道博弈本来是一个正则形式博弈（norm form game），双方应当采用混合策略。

然而诸葛亮通过派人在华容道放狼烟，误导了曹操，使其认为这是个序贯博弈。曹操说：“岂不闻兵书有云，实则虚之，虚则实之。诸葛亮多谋，故使人于山僻放烟，使我军不敢从这条路走，他却伏兵于大路等着。吾已料定，偏不教中他计。”曹操坚信诸葛已经派人埋伏在大路，所以自己应该选择华容道，结果反被关羽埋伏。

以上的解释都十分有（牵）理（强）有（附）据（会）。虽然先贤著作如《孙子兵法》等将对策和谋略发展总结到了一定的理论高度，但是远远不及现代博弈论的体系化、公理化。我们既没必要妄自菲薄，也不能居“古”自傲。

References

天群. 博弈生存: 社会现象的博奕论解读. 中央编译出版社, 2004.

叶立新毛亮从田忌赛马谈起@经济学漫谈，2016.

Leng, Mingming, and Mahmut Parlar. "Game-theoretic analysis of an ancient Chinese horse race problem." Computers & Operations Research 33.7 (2006): 2033-2055.

Niou, Emerson MS, and Peter C. Ordeshook. "用博弈论来解读孙子兵法."

Shu, Jian-Jun. "On generalized Tian Ji’s horse racing strategy." Interdisciplinary Science Reviews 37.2 (2012): 187-193.

可以用博弈论解释论语或者其他先贤著作吗？的其他答案点击这里

可以用博弈论解释论语或者其他先贤著作吗？第1页

相关话题

前一个讨论

下一个讨论

相关的话题

可以用博弈论解释论语或者其他先贤著作吗？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

可以用博弈论解释论语或者其他先贤著作吗？第1页