百科问答小站 logo
百科问答小站 font logo



为什么小模型已经可以很好地拟合数据集了,换大模型效果却要比小模型好? 第1页

  

user avatar   tonyabracadabra 网友的相关建议: 
      

说明传统的Rademacher complexity不适合于解释深度学习中over-parametrization的问题,推荐一篇有趣的文章(Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks),文中针对两层网路提出了一个新的capacity bound能随着hidden unit数量增加而降低,因此作者认为这可能可以解释为什么大网络有时候generalize得更好。




  

相关话题

  让人工智能去下路边街头的象棋残局会赢吗? 
  如果人工智能迎来下一个寒冬,你认为会是卡在什么问题上? 
  如何评价基于游戏毁灭战士(Doom)的AI死亡竞赛大赛结果? 
  为什么Transformer适合做多模态任务? 
  如何看待知乎的AI答主「四十二」?人工智能有可能理解生命的意义是什么吗? 
  深度学习在信息安全的应用有哪些可以关注的人或论文? 
  xgboost原理? 
  为什么谈论深度学习工具时,很少有人讨论matlab的神经网络工具包? 
  为什么小模型已经可以很好地拟合数据集了,换大模型效果却要比小模型好? 
  2019年,计算机视觉领域,你推荐哪些综述性的文章? 

前一个讨论
如果美国禁用 Tensorflow 和 Pytorch 对中国的人工智能有何影响?
下一个讨论
attention跟一维卷积的区别是啥?





© 2025-03-25 - tinynew.org. All Rights Reserved.
© 2025-03-25 - tinynew.org. 保留所有权利