百科问答小站 logo
百科问答小站 font logo



如何看待timm作者发布ResNet新基准:ResNet50提至80.4,这对后续研究会带来哪些影响? 第1页

  

user avatar   SeptEnds 网友的相关建议: 
      

让我比较惊讶的是他用了大批量+ LAMB 优化器 + 超多训练轮数。

在我以前的印象中,图像分类任务一般都是 SGD-M 效果最好,虽然初期收敛慢,但到大后期会爆发,泛化性能往往高于自适应学习率的优化器。类似地,以往大批量训练关注的重点一般是如何在保持泛化性能基本不变(或者略微变差)的情况下提升批量大小以缩短训练时间,而非提升泛化性能。假如去看一些 MLPerf 之类的基准,容易发现这些基准对收敛的判定是不够严格的,比标准训练策略的泛化性能一般要差一些,仅仅是追求极致的训练速度。

看来 LAMB 优化器是真的强,需要好好研究一下了。既能训 ResNet 又能训 BERT,你值得拥有。


user avatar   hbxiong 网友的相关建议: 
      

Tricks are all you need




  

相关话题

  如何评价何恺明、Ross Girshick组的自监督时空表征学习新作? 
  深度学习有哪些好玩的案例? 
  如何评价清华大学沈向洋教授在快手讲课时说的「要避免传统社会语境里的偏见被带入AI」? 
  本科数学,目前在读计算机研一,毕业的时候想要应聘数据挖掘工程师,看了对数据挖掘工程师的招聘要求,感觉太宽泛了,希望能具体说一下现在应该准备哪些知识(算法?编程语言?其他?),谢谢! 
  CVPR2022 有什么值得关注的论文 ? 
  如何评价今年各科技企业举办的开发者大会? 
  人类被机器人统治的条件有哪些? 
  腾讯自己也做芯片,为什么还投资AI/DPU等初创公司?他们之间会不会成为下一个华为和寒武纪? 
  国内有哪些不错的CV(计算机视觉)团队? 
  如何评价 DeepMind 新提出的关系网络(Relation Network)? 

前一个讨论
2021 CCF 全国高性能计算学术年会(CCF HPC China 2021)有哪些值得期待的地方?
下一个讨论
有哪些适合科研工作者的解压方式?





© 2025-06-20 - tinynew.org. All Rights Reserved.
© 2025-06-20 - tinynew.org. 保留所有权利