Linear least squares, Lasso,ridge regression有何本质区别？第1页

dangyuanchu 网友的相关建议:

很多回答都很全面了，大意就是lasso在优化过程的目标函数中使用如下的L1 penalty：

从而把一些线性回归项的系数“逼成”零；ridge是用L2 penalty，旨在把系数变得小一些，但非完全成零。两者原理上的区别可由下图表示：

不难看出由于L1 penalty规定的范围“四四方方、有棱有角”，所以最优解的系数会被刚好缩成零，因此lasso可以实现对变量的选择（系数为零的变量就被筛掉了）。

有趣的是，我们还可以将所有变量分组，然后在目标函数中惩罚每一组的L2范数，这样达到的效果就是可以将一整组的系数同时消成零，即抹掉一整组的变量，这种手法叫做group lasso，其目标函数如下：

其中我们把所有变量分为组，第一项是通常的OLS，第二项是每一组系数的L2范数之和。这里，控制整体惩罚的力度，是每一组的加权，可以按需调节。

比如一个regression若有10个系数，我们如果选择将其分成2组：其中一组，一组。那么group lasso的惩罚项目将会是：

通过施加group-wise的L2 penalty，我们有可能促使或者。

最后，还有一种lasso和group lasso的奇葩结合，叫做sparse group lasso，由 Simon et al 在2013年提出，sparse group lasso的目标函数（如下）的惩罚项中，既有所有系数的L1范数，又有每一组系数的L2范数

其中依然控制总体的惩罚力度，有新引入控制两个惩罚项之间的相互强弱。所以sparse group lasso既可以把系数和变量一组一组地筛掉，又可以在剩下的组中筛掉一些单个的系数，原理图如下：

当然了，这只是在简单OLS背景下的lasso、ridge、和group lasso和sparse group lasso，更常用的目标函数的第一项一般是log likelihood（用于maximum likelihood手法）。相似的概念也可以迁移到其他场景，比如因子分析模型（factor analysis model），其中group lasso可以帮助进行对可被观测的变量选取，而sparse group lasso可以选取隐藏因子，我统计的thesis做的就是这个啦。

statsguy 网友的相关建议:

共产主义政党长期治理的喀拉拉邦在印度处于人类发展指数的前茅，这就是共产主义对印度的影响。

印度及印占藏南、印占克什米尔的人类发展指数

另外，南亚人是非常非常喜欢取经名的。这也是一个地域特色了。

larry-LJY 网友的相关建议:

共产主义政党长期治理的喀拉拉邦在印度处于人类发展指数的前茅，这就是共产主义对印度的影响。

印度及印占藏南、印占克什米尔的人类发展指数

另外，南亚人是非常非常喜欢取经名的。这也是一个地域特色了。

Linear least squares, Lasso,ridge regression有何本质区别？的其他答案点击这里

前一个讨论

吴文俊院士于2017年5月7日去世，如何评价他的数学贡献？

下一个讨论

如何评价凡伟提出的电荷不存在理论？

Linear least squares, Lasso,ridge regression有何本质区别？第1页

相关话题

前一个讨论

下一个讨论

相关的话题

Linear least squares, Lasso,ridge regression有何本质区别？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

Linear least squares, Lasso,ridge regression有何本质区别？第1页