个人感觉强调制定长期目标的重要性,同时认为在具体实践目标时要坚持“走一步看一步”,两者并不矛盾。我尝试给出三个视角:
1、干中学(learn by doing),简单地说,就是达成目标的很多信息是决策前无法获知的,只能在实践中学习、领悟,然后不断的修正自己的短期目标。
2、风险决策,简单地说,决策时充满信息不确定性,我们可以通过干中学,丰富了短期信息,从而不断地更新后验概率,然后修正中长期目标计划。
3、认知理论,推荐读下德国心理学家德尔纳的《失败的逻辑》。简单地说,人类的认知能力是有限的,比如大脑很难按指数级预测增长率,而现实是非常复杂的,因此人不得不根据现实的变化来修正决策。
总的来说,个人感觉目标规划更多是先验概率下的决策,而“走一步看一步”是对其的一种修正。如果从这个视角看,其实这个问题更多的解释不属于“博弈论”。
提问者希望了解博弈论怎样分析这个问题,那么我只讲博弈论。
首先,我要提出与许多回答者不同的一个观点:博弈论是完全适合分析这个问题的。单人决策只是多人博弈的特例,所以博弈论的分析框架全部适用于单人决策问题。特别的,题主所问的这种单人多期优化的学术分析经常是架构在博弈论的语境里的。
接下来我讲讲博弈论怎样分析单人多期优化的几类问题,以及在这几类问题中“走一步看一步”是不是最优解。
1. 最基本的问题是完全信息+稳定偏好的多期决策问题。这个问题的“经典”方法是dynamic programming,“博弈论”方法是“subgame perfect equilibrium". 这两个解是等价的,思路也是完全一样的(事实上Selten关于subgame perfect equilibrium的思想启发就是dynamic programming). 这个思路恰恰就是“走一步看一步”。
2. 更常见的问题是不完全信息+稳定偏好的多期决策问题。这个问题博弈论的解法是sequential equilibrium, perfect Bayesian equilibrium之类的。这些解法在单人博弈情况里等价,与dynamic programming的解法也等价。其中关键条件sequential rationality仍然就是“走一步看一步”的意思。博弈论里的一大让热点方向"experimentation"与其在契约理论的应用就是脱胎于"bandit 赌博机"这个经典不完全信息的多期个人决策问题。
3. 说到不稳定偏好的多期决策问题(偏好呈现time inconsistency),如成瘾问题,拖延症问题等等,博弈论的解决办法是把不同期的决策者理解为不同的人,因而把一个单人多期决策问题转化成一个多人多期博弈问题,然后再用经典分析办法。关于成瘾问题的经典模型multiselves model就是借助这种博弈论分析思路。在这种经情况,因为博弈均衡仍然要求sequential rationality, 所以本质上还是“走一步看一步”。
4. 还有一种多期决策问题里存在所谓“健忘”(absent-minded)的现象,也就是决策者会“忘记”自己在决策的哪一阶段。最经典的例子是Piccione-Rubinstein提出的"absent-minded driver". 这种情况在理论上很有意思,而且引发了学者对于人的决策行为的许多形而上的讨论。最值特一提的是,如果absent-minded情况存在,那么最优决策可能不是“走一步看一步”,特别是最优解是混合策略的情况。因为在“健忘”存在的情况下Kuhn's Theorem即"全局混合策略(mixed strategy)与局部混合策略(behavioral strategy)等价”这一定理是不一定成立的。(本质上还是因为imperfect recall导致的time inconsistency, 但和multsleves model不同的是,前一期的局部决策在这个模形里通常是不能限制下一期的选择。)因此,个人决策的最优解很可能只是全局混合策略而不是局部混合策略。放到“走一步看一步”这个问题来说,“走一步看一步”作为局部优化,结果可能不是最优的。不过这种“健忘”现象存在的决策的应用中似乎不常见,所以现在影响主要还是更偏形而上的理论。
--------------
我又看了一下别的回答,感到大家有几个反映:
1. “认为单人决策问题不是博弈问题。” 其实单人决策问题只是博弈问题的一个特例,只是所以他人策略作为外生变量(state of the world)。但在博弈均衡里,每个参加者面临的决策问题就是这种把别人策略当外生变量的单人决策问题。别忘了参加者本人是不用计算均衡的。另一种类比是,单人决策与多人博弈的关系就是partial equilibrium 和 general equilibrium的关系:唯一的区别只是模形的边界。
2. “认为‘人生’这种单人决策问题不能用Bayesian model, 因为人对周围信息的评价,吸收和处理都与Bayesian agent相差很远。” 这个评论我是同意的。但如果这样的话所有的现实话题都无法进行学理性的讨论,因为我们用的模型没有哪一个是真正接近现实的。关键是我们是否能在一个严谨的模型分析中获得一些基本的“启迪”(insight)。如果我们要在non-Bayesian framework里进行有意义的讨论,那么我们必须借用一个严谨的能产生有意义的结论的non-Bayesian model.
谢邀,
@星日马,哈哈我好久没正经答题了呢。
最近正好在看一本叫“The economics of time and ignorance”的关于奥地利学派的书,正好和这个问题很有关。在其中的一篇叫做“The Dynamic Conception of Time”的文章中,作者正好提到过这个问题。那篇文章引用了Hahn那本著名的《一般均衡理论》里面的话:
As Hahn admitted, “The assumption that all intertemporal and all contingent markets exist has the effect of collapsing the future into the present” (1980, p. 132). Decisions are all made in a single primordial instant: the future is merely the unfolding of a tapestry that exists now.
翻译:就像Hahn所承认的那样:“假设所有跨期商品和或有商品市场存在会让所有‘未来’塌陷到‘现在’当中。”决策完全是在(整个state variable的随机过程)开始之前就制定好了:未来只是一个现在已经存在东西的展开罢了。
其实,无论是题主提到的序贯均衡也好,动态一般均衡也罢,都是这个问题。经济学家解决动态问题的方法只有一个,那就是逆向归纳。比如在经典的宏观问题中,比如Hall的不确定性存在下的永久收入假说,我们无非是要解一个这样的问题:
解这个问题的思路本质上就是逆向归纳:第一步,当我在第T期,财富是某个,我要消费多少?然后递归到第T-1期:如果第T期我的财富是某个,我预测的消费是,然后我决定如果第T-1期,当财富是某个的时候我要消费多少……以此类推,解出来的就是经典的随机游走:。虽然在不同的情况下约束条件不同(比如金融市场、劳动市场等等是不是完全竞争的),但是所有问题都是这么解决的。
当然,宏观当中因为要经常遇到货币问题,所以一般都要假设无限期界,这时候就没有一个特别合适的“第T期”了,所以必须要改用DP来解这个问题了。但是思想没变,结果是,最终我们找到只是一个“相机行动计划”,即依据不同的已经realize掉的收入流,调整我们的决策也就是一个optimal policy。当然就像
@金超说的,一个相机行动计划在某种意义上也可以被看做“走一步看一步”。但从本质上说,第0期之后,决策者并没有真的在做“决策”,而是一直在执行一个从一开始就决定好了的行动计划而已。
这篇文章的作者所argue的点是这样的:如果我们那新古典这一套东西去研究跨期问题,我们不可能看得到真正的“动态问题”,动态问题根本就不存在,这是因为决策是静态的。作者继续argue的一件事情就是这里面的根本问题是新古典经济学里面的时间是“牛顿时间”,它只是空间概念的一个类比而已,因为空间是可分的,牛顿时间也是可分的,所以,时间轴作为“时间点组成的连续统”,不可能包含任何真正的因果关系。作者认为,应该用“real time”这个概念,即事物因果关系的一个序数排序,来取代“Newtonian time”。
当然,作者说的东西我一来没有完全理解(没有数学模型看不懂东西是病得治),二来看懂的部分也不完全赞成。所以这里我按照我理解问题的方式来说说真正的“走一步看一步”是什么,题主的困惑是用新古典模型的视角去看待动态问题不可能出现真正的走一步看一步,我想问题是出在了新古典模型默认的Savage的主观概率理论上了,也就是我在之前一篇专栏里写的“小世界假设”上(
开放宇宙、企业家与挨千刀的概率论 - Mr. Bias 的经济学轻科普 - 知乎专栏)。
通常新古典经济学家会假设存在一个关于“state of the world”的集合先验存在,记作,且这个集合至多可数。可以证明,只要满足Savage给出的那七个公理,那么就存在一个上的测度使之满足一个概率测度的所有要求,这个概率测度就是博弈论中的“先验概率”,所有关于非完美信息、非对称信息的博弈理论和经济理论,无一不是从这里出来的。
为了在其中引入所谓的“动态问题”,我们可以做这样一个处理:,其中每一个表示在时段t中可能会realize的所有state的集合。这样,站在时期t的决策者,已经观察到了所有历史上曾经realize的那些state,即,也就是计量理论中经常出现的“历史信息”。此时我们可以通过贝叶斯法则去“更新”已经存在的先验概率:
。
感谢期望效用下面效用和概率之间的关系是线性的,感谢重复期望法则,我们在所有“动态经济模型”当中使用的决策规则在统计决策理论下面就这么成立了。
所以,所有新古典经济学家在统计决策理论的角度看都是Bayesian。
Savage体系是题主疑惑的问题的最根本原因,因为Savage体系的好处是“动态一致性”。就像我们从上面那个宏观问题当中发现的那样,只要我们在整个随机过程开始之前就确定一个计划,然后忠实地完成这个计划就可以了。而且,我们的Belief是Bayesian的,是我们的决策是动态一致性的必要条件,也就是说,如果我们的先验信念不是一个概率测度,或者我们更新信念的方式不是Bayes Rule而是其他一些什么东西,那么动态一致性就没有了,这是Epstein & Le Breton (1992)证明过的。
Binmore在2006年的一篇叫做“Making Decisions in Large Worlds”(当然从题目看他就是要解决小世界问题的)中说了这么一段话:
But why should we wish to adjust our gut-feelings using Savage’s methodology? In particular, why should a rational decision-maker wish to be consistent? After all, scientists aren’t consistent, on the grounds that it isn’t clever to be consistently wrong. When surprised by data that shows current theories to be in error, they seek new theories that are inconsistent with the old theories. Consistency, from this point of view, is only a virtue if the possibility of being surprised can somehow be eliminated. This is the reason for distinguishing between large and small worlds. Only in the latter is consistency an unqualified virtue.
翻译:然而,为什么我们要抛弃直觉而改用Savage的方法呢?特别是,为什么一个理性的决策者一定要是动态一致的呢?至少科学家就不一致嘛,因为“动态一致地犯错”是非常不明智的。当数据惊奇地告诉我们已知的理论是错的,我们会寻找与旧理论不一致的新理论来代替它。一致性在这个角度来说仅仅是“惊奇”不存在时的正确决策方式。这就是“小世界”和“大世界”必须分开对待的原因。一致性在“大世界”中是一个非常烂的行为法则。
Herbert Simon在1950年代提出Satisficing的那篇经典文章中特意区分过两类知识:一类是关于“哪些偶然情况可能发生”的知识,另一类是关于“这些可能发生的偶然情况发生的概率”的知识。显然在Savage的公理体系里面,仅有第二类是会通过学习而“更新”的,而第一类知识先验地就是完备的,这也是很多奥地利学派经济学家认为新古典经济学虽然到处是概率,但是并没有能够使genuine uncertainty存在的余地的原因。
事实上,真正的“走一步看一步”,并不只是在学习中所有元素发生的概率(就像Savage体系中所做的那样),而是在学习集合本身。就像之前的答案里 (
有些事明显对自己有益,为什么却无法去做? - 陈茁的回答) 我提到过的Naive decision maker一样,偷懒的学生决定拖延(比如写作业和复习考试)并不一定是因为他不在乎成绩,而是他坚信自己未来一定会完成任务。但是真的当未来变成现在,他发现自己当时没有考虑到自己还是不复习这种可能性。也就是说,一开始决策者对这个集合并没有完备的知识。对我们也是一样的,三岁时的我们,当被问到“你以后想干什么”的时候,如果按照新古典理论,我们的答案应该是:“如果XXX我就去干警察,如果YYY我就去干科学家,如果ZZZ我就……”但是我们都知道,三岁的小孩儿根本不可能知道都有哪些偶然因素可能发生,我们成长的过程一个重要任务就是这个。
我在之前那篇专栏里提到的身兼凯恩斯和哈耶克两门武艺的Shackle,站在他激进主观主义的立场上声称:未来在现在并不存在。未来并不是所有人在某一时刻就已经创造出来,并随着时间流逝慢慢发现它,而是由所有人不断地创造出来的。在他1972年的Epistemics and economics中,他提到(pp. 156):
So far as men are concerned, being consists in continual and endless fresh knowing.
翻译:人的存在,在于无休止的学习中。Shackle认为,学习的过程是没有终点的,在Savage体系中那个完备的先验概率体系只是一个永远不可能到达的理想状态。
这也是题主和同学们觉得人生不能化约为一个动态博弈的原因。
就酱~
我支持
@Reinhardt Jin的说法,这个问题其实不一定要看作博弈,因为“世界”和“我”不是对等的对手。世界并不会有意识的和个人博弈——我承认确实有一些模型,我们可以把自然引入进来,给自然赋予一个属性,比如总是在最小化风险之类,然后让人和自然进行博弈求均衡。
但是就题主这个问题来说,看作动态规划和看作动态博弈是等价的,因为自然的反应是可以预期的,并且我们不需要在乎“自然”的效用,我们只在乎自己的效用,那么还是等价于你选择一个行动,然后每个行动产生一个效用,你试图在最大化总效用。
假如你认为人生只会进步,不会退步,区别只是进步大一点和小一点的话,那么走一步,看一步是和预先老谋深算的盘算一番是一样的,在这种情况下,人生就是一个带正权重的有向无环图,从出生到死亡。
从出生开始,我们只需要看看我们周围可以做的选择,选效用最高的那一个,到了下一个目的地之后环顾四周,发现新的选择,也发现新的可以达到目标的方法,然后看看周围的选择是不是比现在的好,如果是的话,就跳过去,如此反复,可以保证我们选择的是一条整体效用最高的路径,这就是戴克斯特拉算法。
这个算法最大的特点就是可以走一步看一步,每一步都选择最优的,最后必然能得出一个全局最优,他发明了一个术语叫做“松弛”,每一回合,通过自己新发现的路径来检测自己之前做的选择是不是最优的,如果是的话,就保持不变,如果不是,就修正为新的路径。
但是戴克斯特拉算法有个最大的假设,就是没有负效用的道路,这是不是符合人生的现实呢?看标准怎么定义了,有人认为只要是经历,都是财富,有人认为自己绕弯路回到了原点,那就是完全的浪费。
如果你认为人生是可能有死循环的,有负效用的,戴克斯特拉方法就失效了。这个时候就要采用贝尔曼--福特算法来找出最优路径。
很遗憾,在这种情况下,走一步看一步就无法保证最优解了。必须要打开上帝视角,预先对路径上的每一条边都进行松弛操作,反复多次之后,每一个点所对应的最短距离都慢慢的变成了“正确”的最短距离,于是我们真正需要找的那个最短距离也就慢慢的浮现出来了。
所以啊,不同的人生态度对应不同的算法,豁达一点的呢,认为人生就是风景,有进无退,那么就直接戴克斯特拉算法, 走一步算一步,人生就已经是最完美的,无需过多的算计;但是如果你认为人生是充满陷阱、机遇和挑战的,存在着死循环和坑,那么最好还是多盘算盘算,走一步看一步,没准哪天就走到一个周围全是负向量的“坑”里面,多盘算盘算才能获得更高的效用。