这是个挺有意思的问题,这里给几个常见的不同角度的解释。
看一下下面两张图像,分别是
和 的图像,
有什么发现?它们拟合了相同的零点,而我们仅仅对所有的参数进行了缩放,图像变得更光滑了!
所以说,我们在目标函数加入一个正则项,其实做了一个Penalty,能够防止参数在数值上过大,使得函数非常尖锐,造成过拟合。
岭回归:
可以改写成:
下面这个形式是凸优化问题,可以找到拉格朗日乘子 变成第一种形式。
所以说,我们优化岭回归的目标函数,可以找到对应的约束线性回归优化问题,我们对 假设空间直接做了约束,使它仅仅在一个以原点为圆心的球内取值,它的假设空间显然缩小了,因此模型的复杂度也降低了。
考虑带高斯先验分布 的极大似然估计:
其中 是对应的一个常数。考虑一个线性回归问题,我们可以把 换成 ,代入去掉常数项,我们又得到了一个岭回归问题。(LASSO可以通过Laplacian分布得到,也能从侧面反应稀疏性。)
这里其实没有解释为什么能够缓解过拟合,但是因为我们人工引入了Prior,其实体现了一种Inductive Bias,也就是参数的分布应该是集中在数值较小的均值附近。也就是说,更接近均值0的参数应该可以得到更好的泛化能力。不过,跟贝叶斯学派长久以来的问题一样,为什么高斯先验好?经验告诉我们的…
《Understanding ML》给了另一个视角,我们可以证明,在加入正则项后,当目标函数是凸且Lipschitz的时候,我们替换数据集的一个样本不会造成泛化性能变化过大,泛化性能优良就是防止过拟合的目标。当目标函数平滑非负的时候也有类似的结论。有这样严谨的理论结果,我们就更能确定正则可以防止过拟合。
当然,跟另一个哥们儿的答案对应起来了,我也套用一下:模型对于微小扰动的反馈差异大实际就是一个过拟合的表现。
女王:求求题主放过我,我可不敢有什么政绩。。。
克劳备忘录也好,凯南电报也好,有两大共同点。首先,都是以现实主义的眼光去分析双方的关系。然后,给出的建议都是阳谋,并不是什么不可告人的阴谋,执行起来需要的不是鸡鸣狗盗的小聪明,而是惊人的意志力。
而美国现在战略界现实主义被边缘化,我推测,布热津斯基,基辛格那帮人应该写过不少。不过没所谓,美国能执行大战略的时代过去了。现在这一代精英上半年能管下半年就已经很了不起了。一个需要两代人以上持之以恒去完成的大战略,搞出来他们也执行不了。
冷战时期,从杜鲁门艾森豪威尔到肯尼迪尼克松,最后到李根老布什,个人性格和政治偏好差距不要太大,但是都忠实地完成了他们历史任务,沿着围堵政策做下去。这种战略定力和延续性,世间少见。在中国领导集团上能看见一些相似的东西,但是我们离得距离太近,反而看不清。但在美国精英层身上完全看不到这一点。
个人愚见。