因为大多数paper报的baseline都是100epoch+[30 60 90] step learning schedule的setting,也就是fb复现resnet时用的setting,具体见https://github.com/facebookarchive/fb.resnet.torch。
nas出现以后大家开始用一些更牛逼的training setting来训练自己的网络了,跑几百个epoch,cosine learning schedule,label smooth,mixup,auto augmentation等等,所以resnet50的结果也越来越高,具体可参考https://arxiv.org/pdf/1812.01187.pdf。
后面还有distill,unlabeled data等一堆技巧,关注Quoc V. Le,你就能拥有一切。[doge]