百科问答小站 logo
百科问答小站 font logo



为什么小模型已经可以很好地拟合数据集了,换大模型效果却要比小模型好? 第1页

  

user avatar   tonyabracadabra 网友的相关建议: 
      

说明传统的Rademacher complexity不适合于解释深度学习中over-parametrization的问题,推荐一篇有趣的文章(Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks),文中针对两层网路提出了一个新的capacity bound能随着hidden unit数量增加而降低,因此作者认为这可能可以解释为什么大网络有时候generalize得更好。




  

相关话题

  为什么softmax很少会出现[0.5,0.5]? 
  分类机器学习中,某一标签占比太大(标签稀疏),如何学习? 
  知识图谱+nlp,有什么适合硕士独自研究的方向? 
  如果你是面试官,你怎么去判断一个面试者的深度学习水平? 
  共轭是指 ‘先验分布与后验分布共轭“ ,还是指 "先验分布与似然函数共轭“? 
  如何理解 Swin Transformer 和 Vision Transformer不同任务上的差异? 
  我应该从计算机视觉回到做FPGA 吗? 
  如何比较Keras, TensorLayer, TFLearn ? 
  百度学术能否替代 Google 学术网站?有没有其他选择? 
  计算机视觉顶级会议论文中比较适合初学计算机视觉的人做的复现实验有哪些? 

前一个讨论
如果美国禁用 Tensorflow 和 Pytorch 对中国的人工智能有何影响?
下一个讨论
attention跟一维卷积的区别是啥?





© 2025-01-18 - tinynew.org. All Rights Reserved.
© 2025-01-18 - tinynew.org. 保留所有权利