百科问答小站 logo
百科问答小站 font logo



为什么小模型已经可以很好地拟合数据集了,换大模型效果却要比小模型好? 第1页

  

user avatar   tonyabracadabra 网友的相关建议: 
      

说明传统的Rademacher complexity不适合于解释深度学习中over-parametrization的问题,推荐一篇有趣的文章(Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks),文中针对两层网路提出了一个新的capacity bound能随着hidden unit数量增加而降低,因此作者认为这可能可以解释为什么大网络有时候generalize得更好。




  

相关话题

  如何评价 DeepMind 发表在 Nature 的论文公开无需人类棋谱的 AlphaGo Zero? 
  机器学习该怎么入门? 
  阿里的TDM树深度模型为什么很少有人用,是有哪些问题吗? 
  有哪些优秀的深度学习入门书籍?需要先学习机器学习吗? 
  NLP领域,你推荐哪些综述性的文章? 
  面试官如何判断面试者的机器学习水平? 
  是不是对于任意 n×n 大小的围棋棋盘,人类都赢不了 AlphaGo Zero 了? 
  计算机视觉中video understanding领域有什么研究方向和比较重要的成果? 
  我应该从计算机视觉回到做FPGA 吗? 
  DL/ML 模型如何部署到生产环境中? 

前一个讨论
如果美国禁用 Tensorflow 和 Pytorch 对中国的人工智能有何影响?
下一个讨论
attention跟一维卷积的区别是啥?





© 2025-02-22 - tinynew.org. All Rights Reserved.
© 2025-02-22 - tinynew.org. 保留所有权利