百科问答小站 logo
百科问答小站 font logo



为什么小模型已经可以很好地拟合数据集了,换大模型效果却要比小模型好? 第1页

  

user avatar   tonyabracadabra 网友的相关建议: 
      

说明传统的Rademacher complexity不适合于解释深度学习中over-parametrization的问题,推荐一篇有趣的文章(Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks),文中针对两层网路提出了一个新的capacity bound能随着hidden unit数量增加而降低,因此作者认为这可能可以解释为什么大网络有时候generalize得更好。




  

相关话题

  如何评价 On Unifying Deep Generative Models 这篇 paper? 
  是否有可能使用人工智能在高原、戈壁和沙漠中进行工业生产? 
  机器学习中macro-F1的计算公式? 
  什么是人工智能?人工智能、机器学习、深度学习三者之间有什么关系吗? 
  如何开发一个自己的 TensorFlow? 
  2020-2021年NLP有什么核心技术的更迭吗?或者有什么推动领域发展的paper吗? 
  应届硕士毕业生如何拿到知名互联网公司算法岗(机器学习、数据挖掘、深度学习) offer? 
  如何评价第一局比赛 AlphaGo 战胜李世石? 
  研一刚入学,从未接触过神经网络,python也是才开始学,现在导师要我做LSTM,我应该去学什么? 
  caffe开发过程中使用了哪些工具? 

前一个讨论
如果美国禁用 Tensorflow 和 Pytorch 对中国的人工智能有何影响?
下一个讨论
attention跟一维卷积的区别是啥?





© 2025-05-24 - tinynew.org. All Rights Reserved.
© 2025-05-24 - tinynew.org. 保留所有权利