百科问答小站 logo
百科问答小站 font logo



如何看待timm作者发布ResNet新基准:ResNet50提至80.4,这对后续研究会带来哪些影响? 第1页

  

user avatar   SeptEnds 网友的相关建议: 
      

让我比较惊讶的是他用了大批量+ LAMB 优化器 + 超多训练轮数。

在我以前的印象中,图像分类任务一般都是 SGD-M 效果最好,虽然初期收敛慢,但到大后期会爆发,泛化性能往往高于自适应学习率的优化器。类似地,以往大批量训练关注的重点一般是如何在保持泛化性能基本不变(或者略微变差)的情况下提升批量大小以缩短训练时间,而非提升泛化性能。假如去看一些 MLPerf 之类的基准,容易发现这些基准对收敛的判定是不够严格的,比标准训练策略的泛化性能一般要差一些,仅仅是追求极致的训练速度。

看来 LAMB 优化器是真的强,需要好好研究一下了。既能训 ResNet 又能训 BERT,你值得拥有。


user avatar   hbxiong 网友的相关建议: 
      

Tricks are all you need




  

相关话题

  金融学及金融从业者如何应对人工智能和大数据? 
  在算力充沛,深度学习模型大行其道的今天,传统机器学习的未来在哪里? 
  如何看待 Uber 发生全球首例自动驾驶致死事件? 
  机器学习算法工程师如何自己接项目单干、并赚取比上班多得多的收入? 
  如何看待「原谅宝」? 
  法律是否可能被代码化? 
  有哪些值得推荐的人工智能领域的优质科普平台或渠道? 
  测试集在构造的时候需要人为控制其中应该正确的和应该错误的数据比例吗? 
  人工智能技术如何应用到相亲? 
  如何评价 MSRA 最新的 Deformable Convolutional Networks? 

前一个讨论
2021 CCF 全国高性能计算学术年会(CCF HPC China 2021)有哪些值得期待的地方?
下一个讨论
有哪些适合科研工作者的解压方式?





© 2025-06-20 - tinynew.org. All Rights Reserved.
© 2025-06-20 - tinynew.org. 保留所有权利