百科问答小站 logo
百科问答小站 font logo



如何看待timm作者发布ResNet新基准:ResNet50提至80.4,这对后续研究会带来哪些影响? 第1页

  

user avatar   SeptEnds 网友的相关建议: 
      

让我比较惊讶的是他用了大批量+ LAMB 优化器 + 超多训练轮数。

在我以前的印象中,图像分类任务一般都是 SGD-M 效果最好,虽然初期收敛慢,但到大后期会爆发,泛化性能往往高于自适应学习率的优化器。类似地,以往大批量训练关注的重点一般是如何在保持泛化性能基本不变(或者略微变差)的情况下提升批量大小以缩短训练时间,而非提升泛化性能。假如去看一些 MLPerf 之类的基准,容易发现这些基准对收敛的判定是不够严格的,比标准训练策略的泛化性能一般要差一些,仅仅是追求极致的训练速度。

看来 LAMB 优化器是真的强,需要好好研究一下了。既能训 ResNet 又能训 BERT,你值得拥有。


user avatar   hbxiong 网友的相关建议: 
      

Tricks are all you need




  

相关话题

  如何评价 PyTorch 团队推出的推荐系统库 TorchRec? 
  防贪腐的治标之策,权宜之策听得太多了,但治本之策到底是什么?为何全世界都找不到治贪腐的终极解决方案? 
  人工智能可以作曲吗? 
  如何评价 DeepMind 的新工作 AlphaCode? 
  自动驾驶能治首堵病吗? 
  有哪些比较好的元学习(meta learning)领域的学习资源? 
  深度学习在无人驾驶汽车上面的运用有哪些? 
  图灵法则适用于未来人工智能吗? 
  各类科研领域中哪些公式,原理或定律的推出,用到了有趣的思维方式? 
  大家用resnet50在imagenet上面top1最高能到多少? 

前一个讨论
2021 CCF 全国高性能计算学术年会(CCF HPC China 2021)有哪些值得期待的地方?
下一个讨论
有哪些适合科研工作者的解压方式?





© 2025-03-29 - tinynew.org. All Rights Reserved.
© 2025-03-29 - tinynew.org. 保留所有权利