首页

为什么在SGD中使用L1正则化很难获得稀疏性？第1页

1

menc01 网友的相关建议:

关于 L1 在实操中常不能得到真正稀疏性的原因，有一个听起来很奇怪，细品又有点道理的解释：当参数使用float方式存储时，计算机进行浮点数的四则运算很难得到完美的 0 值。

冷不丁看到，感觉离了大谱。

当我们专注于算法推导的时候，几乎没人想到这里来，但听到这个解释后，又打心眼里觉得对。这理论也是我在查阅 FTRL 资料的时候看到的，它莫名契合 FTRL 追求实际落地的出发点。

这里贴一个链接，是一个关于 L1 正则稀疏性的文章，文中有一个很不错的小小实验。这个实验排除了其他回答所说“很多问题是非凸或者复杂凸问题”的干扰因素，或能佐证这个解释。

简单介绍下实验设定：

       def genData(n, p, s):     A = np.random.normal(0, 1, (n,p))     opt_x = np.zeros(p)     random_index_list = random.sample(range(p), s)     for i in random_index_list:  opt_x[i] = np.random.normal(0,10)     e = np.random.normal(0,1,n)     b = np.dot(A,opt_x.T) + e.T     return A, b  A, b = genData(100, 50, 20)

使用如上代码，随机生成了一个小的有冗余的线性 dataset，其中非 0 参数 30 维， 0 参数 20 维。
对这个凸的数据集使用 L1 训练。

结论如下：

加了 L1 后，模型参数确实比只有 L2 更接近 0 了；
使用 subgradient 的 L1 并未达到理论上的稀疏性，很多预期为 0 的参数学习到的参数值在 1e-7 数量级上下，很接近 0 了，但不是 0 -- 各大机器学习框架对 L1 正则的实现，基本都基于 subgradient；
使用近端梯度下降代替 subgradient 后，参数达到理想中的稀疏性。近端梯度下降和 subgradient based L1 相比，具体实现上的区别是加入了软阈值，当 ω < λt 时，ω 会被置零。

关于近端梯度下降，可参考这里：Xinyu Chen：机器学习 | 近端梯度下降法 (proximal gradient descent)

为什么在SGD中使用L1正则化很难获得稀疏性？的其他答案点击这里

1

相关话题

  多任务学习成功的原因是引入了别的数据库还是多任务框架本身呢？
  为什么我用相同的模型，数据，超参，随机种子，在两台服务器会得到不同的结果？
  机器学习小白来提问：关于联邦学习FedAVG和FedSGD的问题？
  如何看待 AlphaFold 在蛋白质结构预测领域的成功？
  如何看待周志华等人的新书《机器学习理论导引》？
  如何评价周志华在微博对 AlphaGo 和机器学习技术的评论？
  如何看待Kaggle最新比赛Zillow禁止中国居民参加第二轮？
  生成对抗网络的毕设怎么上手？
  什么是meta-learning?
  如何评价 MLSys 这个会议？

前一个讨论

隐私计算/多方安全计算/联邦学习问题？

下一个讨论

有哪些能吊打大牌的国货护肤品？

相关的话题

  为什么 Bert 的三个 Embedding 可以进行相加？
  batchsize=1时可以用BN吗?
  为什么机器学习解决网络安全问题总是失败?
  2021年深度学习哪些方向比较新颖，处于上升期或者朝阳阶段，没那么饱和，比较有研究潜力？
  深度学习应用在哪些领域让你觉得「我去，这也能行！」？
  如何看待 Richard Sutton 说的「人工智能中利用算力才是王道」？
  计算机视觉中，目前有哪些经典的目标跟踪算法？
  深度神经网络（DNN）是否模拟了人类大脑皮层结构？
  时间序列数据上可以抽取哪些频域特征？
  石头和塑料袋对于计算机传感器的差别在于什么？为什么无人驾驶系统会依然存在对周围环境的误判？
  当前深度学习理论基础薄弱是否意味着我们应该放弃深度学习应用(计算机视觉、自然语言处理)？
  如何看待End-to-End Object Detection with Transformers？
  在NLP当中，不同的评价指标，BLEU, METEOR, ROUGE和CIDEr的逻辑意义？
  如何看待旷视科技新产品监视学生上课？
  如何看待 Google 围棋 AI AlphaGo 击败欧洲围棋冠军？
  nlp有哪些值得完整实现一遍的算法?
  写深度学习代码是先写model还是dataset还是train呢，有个一般化的顺序吗？
  BERT模型可以使用无监督的方法做文本相似度任务吗？
  如何评价最新的Octave Convolution？
  如何理解 inductive learning 与 transductive learning?
  多任务学习中loss多次backward和loss加和后backward有区别吗？
  Batch normalization和Instance normalization的对比？
  如何评价基于游戏毁灭战士（Doom）的AI死亡竞赛大赛结果？
  注意力机制是如何学习到模型所应注意的区域的？
  机器学习中的机器是如何分辨哪些是有用的知识，哪些是没用的信息呢？
  相比于时下流行的机器学习方法（联接主义），传统的人工智能方法（符号主义）有什么独一无二的优势？
  如何看待「机器学习不需要数学，很多算法封装好了，调个包就行」这种说法？
  如何看待AI伦理科学家Timnit Gebru在邮件控诉谷歌缺乏种族多样性后被Jeff Dean炒掉？
  请问机器学习中的预测与决策的区别是什么，他们的界限在哪里呢？
  机器学习小白来提问：关于联邦学习FedAVG和FedSGD的问题？

© 2025-05-29 - tinynew.org. All Rights Reserved.
© 2025-05-29 - tinynew.org. 保留所有权利