这个问题挺有意思的。在大学学过一点博弈论,高中背过一点论语。
“博弈”一词在汉语中最早就见于论语:
子曰:「飽食終日,無所用心,難矣哉!不有薄亦者乎,為之猶賢乎已。」
—— 《论语 · 第十七章 · 阳货篇》
孔子口中的“薄亦者/博弈者”指的是下棋的人。
弈,棋;博,比赛、对抗;博弈,即指下棋比赛。
虽然我们古代先贤没有把博弈理论化,但是《论语》和其他古文经典早有体现出博弈的思想。
我们后人可以用博弈论来系(生)统(搬)阐(硬)释(套)这些思想。
-------------------------------- 《论语》/《呂氏春秋》----------------------------------
或曰:“以德报怨,何如?”
子曰:“何以报德?以直报怨,以德报德。”
—— 《论语 · 宪问》
“以直报怨,以德报德”实际就是孔子提出的针对重复囚徒困境的一个有效策略 —— tit-for-tat(一报还一报)。
在单次囚徒困境中,一个单纯策略纳什均衡是双方都选择“报怨”,但是在重复的囚徒困境中,通过“重复上一轮对方的选择,即一报还一报”这个策略可以有效的使得双方都选择合作从而利益最大化,因此双方都“以直报怨,以德报德”是一个纳什均衡(Nash equilibrium)。
但是如果双方都采用“以直报怨”策略,一旦某方由于失误(手抖)或者误解(迷糊)从而进入“怨”的循环,对双方都不利,有什么方法可以打破这个僵局呢?
子贡问曰:“有一言而可以终身行之者乎?”
子曰:“其恕乎!己所不欲,勿施于人。”
—— 《论语 · 卫灵公》
“其恕乎!己所不欲,勿施于人”则是孔子针对 tit for tat 策略的改进版 —— generous tit-for-tat(慷慨的一报还一报)。首先,既然大家都不喜欢被“报怨”,则“勿施于人”;其次,即使我发现对方“报怨”,我仍然有几率宽恕对方,“报德”而不“报怨”,从而避免了恶性循环。“重复上一轮对方的选择,但是被背叛时仍有几率选择原谅”这个策略可以有效的使得双方都选择合作从而利益最大化,同时引入了纠错机制,因此双方都“以直报怨,以德报德”+“其恕乎!”是一个颤抖手精炼均衡(trembling hand perfect equilibrium)。
*关于 tit-for-tat(一报还一报)和 generous tit-for-tat(慷慨的一报还一报)请参考:
博弈论里的囚徒困境怎么解决? - 忆唯的回答 -
魯國之法,魯人為人臣妾於諸侯、有能贖之者,取其金於府。
子貢贖魯人於諸侯,來而讓不取其金。
孔子曰:「賜失之矣。自今以往,魯人不贖人矣。取其金則無損於行,不取其金則不復贖人矣。」
子路拯溺者,其人拜之以牛,子路受之。
孔子曰:「魯人必拯溺者矣。」
孔子見之以細,觀化遠也。
—— 《呂氏春秋 ‧ 察微》
在“做好事留不留名”这个重复博弈中,大家都处于“你留名我也留名,你不留名我也不留名,因此我们做好事都留名”(左上)这个纳什均衡中。但是子贡率先打破了均衡,选择了“做好事不留名”。虽然子贡一时获得了更高的名誉收益(左下),但是由于他打破了均衡,以后的好人迫于道德压力就都只能选择“做好事不留名”,反而使得大家未来的预期名誉收益都下降了(右下)。因此孔子批评了子贡,表扬了子路。
而孔子所最重视的“仁义”可能和博弈论对博弈者的假设不太一样。一般博弈论假设双方都是自私自利,最大化自己利益的(效用方程只考虑自己),也就是孔子所鄙视的“小人”。
子曰:“君子喻于义,小人喻于利。”
—— 《论语 · 里仁》
所以基础博弈论里的假设大家都是小人。而“君子”所重视的“仁义”,可能和社会资本(social capital)这个概念比较像,在博弈论中引入了信任与合作。
-------------------------------- 《史记》/《孙子兵法》----------------------------------
孙子曰:“今以君之下驷与彼上驷,取君上驷与彼中驷,取君中驷与彼下驷。”
—— 《史记》卷六十五《孙子吴起列传第五》
在田忌赛马博弈中,齐王和田忌各有6种单纯策略。在一次单独的比赛中,齐王可能会被孙膑的策略坑到,但是如果比赛重复地进行下去呢?显然,齐王会吸取经验,不会继续采用原来的固定的单纯策略,双方都会采取混合策略。
田忌赛马的博弈对局存在一个混合策略均衡,就是双方都会以相同的概率选择每种赛马出场顺序。如果双方都采纳这个均衡策略,每六场比赛,由于齐王的每种马都比田忌的好一点儿,齐王平均能赢五场,而田忌平均只能赢一场(叶立新 毛亮,2016)。
*这里关于田忌赛马的正则表示采用了:
「田忌赛马」的战略可以用博弈论解释吗? - Richard Xu的回答 - https://www.zhihu.com/question/19773994/answer/54164949
很多学者都使用通过博弈论研究过田忌赛马,还把田忌赛马问题一般化了:
On Generalized Tian Ji’s Horse Racing Strategy
—— 孙斌策略的高明之处在于“牺牲部分利益以获得更大的整体利益”。
Game-theoretic analysis of an ancient Chinese horse race problem
—— 在只有一个最终奖励(one-unit payoff)的情况下,双方应当使用同概率的混合策略。
兵者,诡道也。
故能而示之不能,用而示之不用,近而示之远,反之亦然。利而诱之,乱而取之。
—— 《孙子兵法 · 计篇》
(《史记》里的孙子指的是孙膑,《孙子兵法》应当是孙武所著。)
“兵者,诡道也”强调的就是在不完全信息博弈中,混合策略的重要性。
“我军应当选择进攻,因为收益高(左上),但是敌人也这样想的话,敌人会推测我军选择进攻,他们就会选择撤退(右上),那么我军应该选择撤退。但是 …… ”
这样会形成一个推理循环。单纯策略是没有均衡的,唯一的一个混合纳什均衡可以解得是“我军选择 的几率进攻, 几率撤退;敌军选择 的几率进攻, 几率撤退”。
践墨随敌,以决战争。
—— 《孙子兵法 · 九地篇》
“践墨随敌”强调的就是序贯博弈(sequential game)中,要根据对手的选择行动。也就是作战中根据敌情而定,敌变我变,随机应变。
如果敌军先行,选择了U,则我军应当选择D’,双方回报为(2,1),对我军来说,比选择U’的(0,0)要好;如果敌军选择了D,则我军应当选择U’,双方回报为(1,2),对我军来说,比选择D’的(3,1)要好。
-------------------------------- 《三国演义》----------------------------------
瑤琴三尺勝雄師,諸葛西城退敵時。
十五萬人回馬處,後人指點到今疑。
—— 《三國演義》第95回
空城计是一个信息不对称的博弈。
在空城计博弈中,司马懿不知道自己和诸葛亮在不同行动策略下的支付,而诸葛亮是知道的,他们对博弈结构的了解是不对称的。诸葛亮的“空城计”加了大司马懿对进攻失败的主观概率。司马懿说:“亮平生谨慎,不曾弄险。今大开城门,必有埋伏。我兵若进,中其计也。”此时,在司马懿看来,进攻失败的可能性较大,而退兵的期望效用大于进攻的期望效用,因此同样谨小慎微的司马懿选择了撤退(天群,2004)。
曹瞒兵败走华容,正与关公狭路逢。
只为当初恩义重,放开金锁走蛟龙。
—— 《三國演義》第50回
华容道博弈本来是一个正则形式博弈(norm form game),双方应当采用混合策略。
然而诸葛亮通过派人在华容道放狼烟,误导了曹操,使其认为这是个序贯博弈。曹操说:“岂不闻兵书有云,实则虚之,虚则实之。诸葛亮多谋,故使人于山僻放烟,使我军不敢从这条路走,他却伏兵于大路等着。吾已料定,偏不教中他计。”曹操坚信诸葛已经派人埋伏在大路,所以自己应该选择华容道,结果反被关羽埋伏。
以上的解释都十分有(牵)理(强)有(附)据(会)。虽然先贤著作如《孙子兵法》等将对策和谋略发展总结到了一定的理论高度,但是远远不及现代博弈论的体系化、公理化。我们既没必要妄自菲薄,也不能居“古”自傲。
References
天群. 博弈生存: 社会现象的博奕论解读. 中央编译出版社, 2004.
叶立新 毛亮从田忌赛马谈起@经济学漫谈,2016.
Leng, Mingming, and Mahmut Parlar. "Game-theoretic analysis of an ancient Chinese horse race problem." Computers & Operations Research 33.7 (2006): 2033-2055.
Niou, Emerson MS, and Peter C. Ordeshook. "用博弈论来解读孙子兵法."
Shu, Jian-Jun. "On generalized Tian Ji’s horse racing strategy." Interdisciplinary Science Reviews 37.2 (2012): 187-193.