百科问答小站 logo
百科问答小站 font logo



为什么小模型已经可以很好地拟合数据集了,换大模型效果却要比小模型好? 第1页

  

user avatar   tonyabracadabra 网友的相关建议: 
      

说明传统的Rademacher complexity不适合于解释深度学习中over-parametrization的问题,推荐一篇有趣的文章(Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks),文中针对两层网路提出了一个新的capacity bound能随着hidden unit数量增加而降低,因此作者认为这可能可以解释为什么大网络有时候generalize得更好。




  

相关话题

  deepmind发表的neural processes(神经过程),这个是怎么实现的呢? 
  2021年人工智能领域有哪些关键性进展和突破? 
  有哪些相见恨晚的 TensorFlow 小技巧? 
  如何看待多模态transformer,是否会成为多模态领域的主流? 
  现在的人工智能是否走上了数学的极端? 
  如何评价Google提出的MLP-Mixer:只需要MLP就可以在ImageNet上达到SOTA? 
  TensorFlow 有哪些令人难以接受的地方? 
  深度学习cnn中,怎么理解图像进行池化(pooling)后的平移不变性? 
  如何看UCBerkeley RISELab即将问世的Ray,replacement of Spark? 
  BERT模型可以使用无监督的方法做文本相似度任务吗? 

前一个讨论
如果美国禁用 Tensorflow 和 Pytorch 对中国的人工智能有何影响?
下一个讨论
attention跟一维卷积的区别是啥?





© 2024-12-18 - tinynew.org. All Rights Reserved.
© 2024-12-18 - tinynew.org. 保留所有权利