百科问答小站 logo
百科问答小站 font logo



为什么小模型已经可以很好地拟合数据集了,换大模型效果却要比小模型好? 第1页

  

user avatar   tonyabracadabra 网友的相关建议: 
      

说明传统的Rademacher complexity不适合于解释深度学习中over-parametrization的问题,推荐一篇有趣的文章(Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks),文中针对两层网路提出了一个新的capacity bound能随着hidden unit数量增加而降低,因此作者认为这可能可以解释为什么大网络有时候generalize得更好。




  

相关话题

  计算机视觉顶级会议论文中比较适合初学计算机视觉的人做的复现实验有哪些? 
  如何评价FAIR提出的MaskFeat:一种适用图像和视频分类的自监督学习方法? 
  如何评价 DeepMind 在北京时间 19 年 1 月 25 日 2 点的《星际争霸 2》项目演示? 
  现大二,准备做大学生创新创业项目计划 ,目前定的方向是深度学习+畜牧业/养殖业,有什么建议给我们吗? 
  AI(或者说神经网络/深度学习)能够实现科学(尤其是物理学)研究中提出假设这一步嘛? 
  在中文 NLP 等论文中,应该如何翻译 token 这个词? 
  如何理解空洞卷积(dilated convolution)? 
  什么是反事实分析呀? 
  深度学习有哪些好玩的案例? 
  如何评价旷视开源的YOLOX,效果超过YOLOv5? 

前一个讨论
如果美国禁用 Tensorflow 和 Pytorch 对中国的人工智能有何影响?
下一个讨论
attention跟一维卷积的区别是啥?





© 2024-12-18 - tinynew.org. All Rights Reserved.
© 2024-12-18 - tinynew.org. 保留所有权利