百科问答小站 logo
百科问答小站 font logo



为什么小模型已经可以很好地拟合数据集了,换大模型效果却要比小模型好? 第1页

  

user avatar   tonyabracadabra 网友的相关建议: 
      

说明传统的Rademacher complexity不适合于解释深度学习中over-parametrization的问题,推荐一篇有趣的文章(Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks),文中针对两层网路提出了一个新的capacity bound能随着hidden unit数量增加而降低,因此作者认为这可能可以解释为什么大网络有时候generalize得更好。




  

相关话题

  ICLR 2018 有什么值得关注的亮点? 
  如何看待人工智能领域的很多专家认为「人工智能将对人类存亡造成威胁」的观点? 
  到了 2022 年,人工智能有哪些真正可落地的应用? 
  图片上训的模型,怎么迁移视频上呢? 
  在Lasso中,oracle property指的是什么性质? 
  如何评价MXNet发布的1.0版本? 
  如何评价余凯创立的horizon robotics? 
  如何评价周志华在微博对 AlphaGo 和机器学习技术的评论? 
  如何评价MSRA视觉组最新对spatial attention mechanism分析论文? 
  机器学习中有哪些形式简单却很巧妙的idea? 

前一个讨论
如果美国禁用 Tensorflow 和 Pytorch 对中国的人工智能有何影响?
下一个讨论
attention跟一维卷积的区别是啥?





© 2024-11-09 - tinynew.org. All Rights Reserved.
© 2024-11-09 - tinynew.org. 保留所有权利