百科问答小站 logo
百科问答小站 font logo



为什么小模型已经可以很好地拟合数据集了,换大模型效果却要比小模型好? 第1页

  

user avatar   tonyabracadabra 网友的相关建议: 
      

说明传统的Rademacher complexity不适合于解释深度学习中over-parametrization的问题,推荐一篇有趣的文章(Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks),文中针对两层网路提出了一个新的capacity bound能随着hidden unit数量增加而降低,因此作者认为这可能可以解释为什么大网络有时候generalize得更好。




  

相关话题

  如何看待 AI 方向 PhD 申请竞争过于激烈的现象? 
  马上计算机研一,想问一下机器学习、深度学习…大家都是怎么入门的? 
  马上计算机研一,想问一下机器学习、深度学习…大家都是怎么入门的? 
  人是如何做黑盒优化的? 
  为什么deep lab v3起,输出不再接 DenseCRF了? 
  如何看待 AlphaFold 在蛋白质结构预测领域的成功? 
  各种机器学习算法的应用场景分别是什么(比如朴素贝叶斯、决策树、K 近邻、SVM、逻辑回归最大熵模型)? 
  如何评价 MSRA 最新的 Deformable Convolutional Networks? 
  word2vec有什么应用? 
  目标检测中的mAP是什么含义? 

前一个讨论
如果美国禁用 Tensorflow 和 Pytorch 对中国的人工智能有何影响?
下一个讨论
attention跟一维卷积的区别是啥?





© 2025-02-21 - tinynew.org. All Rights Reserved.
© 2025-02-21 - tinynew.org. 保留所有权利