如果作为整体来看,我觉得不存在纳什均衡。
因为其实可以这样,我第一次随便考一个分数,譬如说考一分。如果其他人都考零分,那么在下次考试,其他人就有了动力来超过我获得奖励,而这一次超过就可以让我得到名次提升的机会。
所以第一次考100分,第二次考0分,第三次再考100分,第四次0分,,,,以此类推,也是最优策略。
当我选择考100分的时候,别人的最佳选择是考0分。但是在下次博弈的时候,我就可以选择考0分来获得最低的排名,最终在第三次考试得到进步。
如此一来,我可以获得3、5、7、9四次进步。可以记为预期收益为4。
如果我在第一次考0分,看起来我可以获得2、4、6、8、10一共五次进步。可以记为预期收益为5。
但是如果所有人都考零分,那么第一次考试等于作废了,损失了一次机会,这样一来提升名次的机会只有3-4次,预期收益记为3.5。
为了简化问题,我们假设只有两个人参加,所以第一次考试的博弈是这样的:
所以非常明显的是不存在纳什均衡的。
上面的4和5的收益在双人博弈中是完全确定的,因为一旦第一轮分出胜负,那么后面的所有考试大家的最佳策略就是名次轮换。但在多人博弈中,会变得非常复杂。
同时我们可以注意到,如果一直不能分出胜负,最后两个人的收益都是零,而如果在第一场考试中可以分出胜负,那么将得到至少4次进步。
所以我们还可以得到另一个矩阵:
如果在第一次考试中,比别人考的低,那么将可能获得多一次的进步机会,所以收益是1,而如果在第一次考试中考的比别人高,则损失一次进步的机会,收益为0。而如果两个人都考得低或者考得高,就可能同分而浪费一次考试的机会,所以收益是-1。
所以最终两人博弈的结果是,第一次考试两个人掷骰子决定自己考试的分数,确保与对方拉开差距,而从第二次考试开始,交替刷新排名来获得最多的进步次数。
匆忙所想,若有错漏欢迎指出。
@JoanneDu的补充中有一个预设的前提,就是必须使自己进步最大化,也就是没有比别人多进步一次和没有进步一次是等价的,我认为这个前提不成立,正因为这个前提的不成立,所以有人可以愿意让出一次进步机会来谋求更多的进步机会。也使得一旦出现名次差异,那么后面的博弈将是非常确定的交替进步模式。
并不是所有游戏都有必胜策略。
我来证明这一点:如果这个游戏有必胜策略,由于这个游戏没有轮流下的步骤,每次决策都是同时进行的,因此这个必胜策略如果存在,那么根据对称性,对于每个人都有效。因此每个人都有必胜策略,而这是不可能的。因此这个游戏没有必胜策略。
完。