如何看待timm作者发布ResNet新基准：ResNet50提至80.4，这对后续研究会带来哪些影响？第1页

SeptEnds 网友的相关建议:

让我比较惊讶的是他用了大批量+ LAMB 优化器 + 超多训练轮数。

在我以前的印象中，图像分类任务一般都是 SGD-M 效果最好，虽然初期收敛慢，但到大后期会爆发，泛化性能往往高于自适应学习率的优化器。类似地，以往大批量训练关注的重点一般是如何在保持泛化性能基本不变（或者略微变差）的情况下提升批量大小以缩短训练时间，而非提升泛化性能。假如去看一些 MLPerf 之类的基准，容易发现这些基准对收敛的判定是不够严格的，比标准训练策略的泛化性能一般要差一些，仅仅是追求极致的训练速度。

看来 LAMB 优化器是真的强，需要好好研究一下了。既能训 ResNet 又能训 BERT，你值得拥有。

hbxiong 网友的相关建议:

Tricks are all you need

如何看待timm作者发布ResNet新基准：ResNet50提至80.4，这对后续研究会带来哪些影响？的其他答案点击这里

相关话题

  如何评价何恺明、Ross Girshick组的自监督时空表征学习新作？
  深度学习有哪些好玩的案例？
  如何评价清华大学沈向洋教授在快手讲课时说的「要避免传统社会语境里的偏见被带入AI」？
  本科数学，目前在读计算机研一，毕业的时候想要应聘数据挖掘工程师，看了对数据挖掘工程师的招聘要求，感觉太宽泛了，希望能具体说一下现在应该准备哪些知识（算法？编程语言？其他？），谢谢！
  CVPR2022 有什么值得关注的论文 ?
  如何评价今年各科技企业举办的开发者大会？
  人类被机器人统治的条件有哪些？
  腾讯自己也做芯片，为什么还投资AI/DPU等初创公司？他们之间会不会成为下一个华为和寒武纪？
  国内有哪些不错的CV(计算机视觉)团队?
  如何评价 DeepMind 新提出的关系网络（Relation Network）？

如何看待timm作者发布ResNet新基准：ResNet50提至80.4，这对后续研究会带来哪些影响？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

如何看待timm作者发布ResNet新基准：ResNet50提至80.4，这对后续研究会带来哪些影响？第1页