百科问答小站 logo
百科问答小站 font logo



在机器学习中,L2正则化为什么能够缓过拟合? 第1页

  

user avatar   hbxiong 网友的相关建议: 
      

这是个挺有意思的问题,这里给几个常见的不同角度的解释。

1. 直观解释

看一下下面两张图像,分别是

和 的图像,

有什么发现?它们拟合了相同的零点,而我们仅仅对所有的参数进行了缩放,图像变得更光滑了!

所以说,我们在目标函数加入一个正则项,其实做了一个Penalty,能够防止参数在数值上过大,使得函数非常尖锐,造成过拟合。

2. 从优化角度:

岭回归:

可以改写成:

下面这个形式是凸优化问题,可以找到拉格朗日乘子 变成第一种形式。

所以说,我们优化岭回归的目标函数,可以找到对应的约束线性回归优化问题,我们对 假设空间直接做了约束,使它仅仅在一个以原点为圆心的球内取值,它的假设空间显然缩小了,因此模型的复杂度也降低了。

3. 从贝叶斯估计的角度:

考虑带高斯先验分布 的极大似然估计:

其中 是对应的一个常数。考虑一个线性回归问题,我们可以把 换成 ,代入去掉常数项,我们又得到了一个岭回归问题。(LASSO可以通过Laplacian分布得到,也能从侧面反应稀疏性。)

这里其实没有解释为什么能够缓解过拟合,但是因为我们人工引入了Prior,其实体现了一种Inductive Bias,也就是参数的分布应该是集中在数值较小的均值附近。也就是说,更接近均值0的参数应该可以得到更好的泛化能力。不过,跟贝叶斯学派长久以来的问题一样,为什么高斯先验好?经验告诉我们的…

4. 正则项作为稳定剂:

《Understanding ML》给了另一个视角,我们可以证明,在加入正则项后,当目标函数是凸且Lipschitz的时候,我们替换数据集的一个样本不会造成泛化性能变化过大,泛化性能优良就是防止过拟合的目标。当目标函数平滑非负的时候也有类似的结论。有这样严谨的理论结果,我们就更能确定正则可以防止过拟合。

当然,跟另一个哥们儿的答案对应起来了,我也套用一下:模型对于微小扰动的反馈差异大实际就是一个过拟合的表现。


user avatar   li-yu-233 网友的相关建议: 
      

女王:求求题主放过我,我可不敢有什么政绩。。。


user avatar   aluea 网友的相关建议: 
      

克劳备忘录也好,凯南电报也好,有两大共同点。首先,都是以现实主义的眼光去分析双方的关系。然后,给出的建议都是阳谋,并不是什么不可告人的阴谋,执行起来需要的不是鸡鸣狗盗的小聪明,而是惊人的意志力。

而美国现在战略界现实主义被边缘化,我推测,布热津斯基,基辛格那帮人应该写过不少。不过没所谓,美国能执行大战略的时代过去了。现在这一代精英上半年能管下半年就已经很了不起了。一个需要两代人以上持之以恒去完成的大战略,搞出来他们也执行不了。

冷战时期,从杜鲁门艾森豪威尔到肯尼迪尼克松,最后到李根老布什,个人性格和政治偏好差距不要太大,但是都忠实地完成了他们历史任务,沿着围堵政策做下去。这种战略定力和延续性,世间少见。在中国领导集团上能看见一些相似的东西,但是我们离得距离太近,反而看不清。但在美国精英层身上完全看不到这一点。

个人愚见。




  

相关话题

  在迁移学习中,只有fine-tune和基于实例的迁移可用在小样本上吗,还有其他的小样本迁移方法吗? 
  目前工业界常用的推荐系统模型有哪些? 
  如何把梯度传递过Argmax? 
  为什么多方安全计算(或者隐私计算/联邦学习)在中国这么火? 
  计算机视觉中video understanding领域有什么研究方向和比较重要的成果? 
  只有正样本和未标签数据的机器学习怎么做? 
  深度学习中Attention与全连接层的区别何在? 
  在机器学习模型的训练期间,大概几十分钟到几小时不等,大家都会在等实验的时候做什么? 
  为什么我用相同的模型,数据,超参,随机种子,在两台服务器会得到不同的结果? 
  如何评价 UCLA 朱松纯教授近日访谈中对深度学习的批评? 

前一个讨论
2020年CVPR有哪些优秀的论文?
下一个讨论
有一个三位数密码锁,如果输入的三位密码有1位是正确的,就会嘀一声响,请问最少要输入几次才一定能开锁?





© 2024-11-21 - tinynew.org. All Rights Reserved.
© 2024-11-21 - tinynew.org. 保留所有权利