首页

batchsize=1时可以用BN吗? 第1页

1

jiang-xue-feng-28-14 网友的相关建议:

个人认为，题主设置Batchsize=1可能是受限于计算资源只能设置Batchsize=1进行训练，或计算资源够，可以用大一点的Batchsize训练，但算法流程或者实例推理inference中有必须设置batchsize=1进行forward的需求，但往往Batchnorm层会写到模型中，大Batchsize训练时当然没问题，但带有BatchNorm进行单例forward的时候会出现error的情况。

前者就不建议使用BN了，没有什么用处（原因在后面），这里补充一下后者的处理方法，即BatchNorm（BN）怎样解决训练和推理时batch size不同的问题？

BatchNorm是在每个minibatch的维度上计算每个相同通道上的均值和方差，调整模型的一层输出时的分布，让模型在经过forward和backward优化时，取得更平滑一些的解。通常情况下，训练阶段的batchsize会设置较大，而有些时候进行推理inference时或者根据算法需要，batchsize会被我们考虑设置为1。这样的话，不同的minibatch训练得到不同的标准化，均值和方差这样的统计参数，而推理时只有一个样本，在只有1个向量的数据组上进行标准化后，成了一个全0向量，导致模型出现BUG。为了解决这个问题，不改变训练时的BatchNorm计算方式，仅仅改变推理时计算均值和方差方法，一种方法是如果在用于训练的数据集和要用于推理的数据集分布基本上差不多的时候，可以用训练集来近似对总体均值μ和总体标准差σ的估计。也可以考虑在batchsize=1的时候，进行推理时记得把model.eval()设置上，model.eval()时，网络模型中不启用 BatchNormalization 和 Dropout。

batchsize=1时可以用BN吗? 的其他答案点击这里

1

相关话题

  计算机视觉研一，只学过Python基础，目前代码能力很差，要不要换导师，不换的话如何毕业？
  为什么现在的CNN模型都是在GoogleNet、VGGNet或者AlexNet上调整的？
  Transformer是如何处理可变长度数据的？
  如何计算CNN中batch normalization的计算复杂度（FLOPs）？
  用 TensorFlow 可以做什么有意思的事情？
  北京深鉴科技基于FPGA平台的DPU架构如何？
  为什么ViT里的image patch要设计成不重叠？
  为什么都说神经网络是个黑箱？
  如何评价 MSRA 最新的 Deformable Convolutional Networks？
  能否对卷积神经网络工作原理做一个直观的解释？

前一个讨论

如何评价斗鱼主播 yyf 举办的高校杯 dota2 比赛？

下一个讨论

如何看待中国企业“霸榜”全球隐私技术专利排行榜，目前国内的隐私计算做的怎么样？

相关的话题

  Evidential deep learning里一般怎么估计多标签分类的Uncertainty？
  计算机视觉中video understanding领域有什么研究方向和比较重要的成果？
  如何评价Hinton组的新工作SimCLR?
  消融实验是什么？
  深度学习方面的科研工作中的实验代码有什么规范和写作技巧？如何妥善管理实验数据？
  神经网络中的能量函数是如何定义的？
  如何评价谷歌推出1.6万亿参数超级语言模型Switch Transformer？
  深度学习火热兴起后，隐马尔可夫模型（HMM）还有何独到之处，是不是几乎可被深度学习模型给替代了？
  2020年，多标签学习（multi-label）有了哪些新的进展？
  如何评价Google最新提出的gMLP：MLP模型在CV和NLP任务上均取得较好的效果？
  在CV/NLP/DL领域中，有哪些修改一行代码或者几行代码提升性能的算法？
  用生成模型做数据增强data augmentation时，如何从合成数据中筛选出质量较好的样本？
  为何感觉“知识蒸馏”这几年没有什么成果？
  目标检测中的mAP是什么含义？
  如何评价周志华教授新提出的 Deep Forest 模型，它会取代当前火热的深度学习 DNN 吗？
  如何评价2020年计算机视觉顶会CVPR投稿量破万的现象？
  为什么最近几年 FPGA 变得越发受大家重视了？
  能否使用神经网络来判断奇偶数？
  为什么deep lab v3起，输出不再接 DenseCRF了？
  如何评价Sony新出的深度学习库NNabla？
  2017年1月18日Facebook发行的PyTorch相比TensorFlow、MXNet有何优势？
  有没有可能运用人工神经网络将一种编程语言的代码翻译成任意的另一种编程语言，而不经过人工设计的编译过程？
  如何评价 UCLA 朱松纯教授近日访谈中对深度学习的批评？
  PyTorch中在反向传播前为什么要手动将梯度清零？
  硕士方向，选择迁移学习还是自然语言处理？
  假如我穿越到2017年第一个提出了Transformer、BERT等模型，我可以保送到清华北大吗？
  如何看待谷歌研究人员提出的卷积正则化方法「DropBlock」？
  如何评价Google发布的第二代深度学习系统TensorFlow?
  你有哪些deep learning（rnn、cnn）调参的经验？
  有人说「真正的人工智能至少还要几百年才能实现」，真的是这样吗？

© 2025-06-15 - tinynew.org. All Rights Reserved.
© 2025-06-15 - tinynew.org. 保留所有权利