首页

batchsize=1时可以用BN吗? 第1页

1

jiang-xue-feng-28-14 网友的相关建议:

个人认为，题主设置Batchsize=1可能是受限于计算资源只能设置Batchsize=1进行训练，或计算资源够，可以用大一点的Batchsize训练，但算法流程或者实例推理inference中有必须设置batchsize=1进行forward的需求，但往往Batchnorm层会写到模型中，大Batchsize训练时当然没问题，但带有BatchNorm进行单例forward的时候会出现error的情况。

前者就不建议使用BN了，没有什么用处（原因在后面），这里补充一下后者的处理方法，即BatchNorm（BN）怎样解决训练和推理时batch size不同的问题？

BatchNorm是在每个minibatch的维度上计算每个相同通道上的均值和方差，调整模型的一层输出时的分布，让模型在经过forward和backward优化时，取得更平滑一些的解。通常情况下，训练阶段的batchsize会设置较大，而有些时候进行推理inference时或者根据算法需要，batchsize会被我们考虑设置为1。这样的话，不同的minibatch训练得到不同的标准化，均值和方差这样的统计参数，而推理时只有一个样本，在只有1个向量的数据组上进行标准化后，成了一个全0向量，导致模型出现BUG。为了解决这个问题，不改变训练时的BatchNorm计算方式，仅仅改变推理时计算均值和方差方法，一种方法是如果在用于训练的数据集和要用于推理的数据集分布基本上差不多的时候，可以用训练集来近似对总体均值μ和总体标准差σ的估计。也可以考虑在batchsize=1的时候，进行推理时记得把model.eval()设置上，model.eval()时，网络模型中不启用 BatchNormalization 和 Dropout。

batchsize=1时可以用BN吗? 的其他答案点击这里

1

相关话题

  如何评价何恺明等 arxiv 新作 Rethinking ImageNet Pre-training？
  什么是大模型？超大模型？Foundation Model？
  神经网络能否代替决策树算法？
  如何评价FAIR提出的MaskFormer，在语义分割ADE20K上达到SOTA：55.6 mIoU？
  深度学习底层开发对数学有哪些要求？
  Google 的神经网络生成图像 (Inceptionism) 是怎么做到的？
  神经网络，人工智能这块怎么入门？
  KL散度衡量的是两个概率分布的距离吗？
  GAN:固定训练好的判别器网络，去指导训练生成器为什么不可以？
  基于深度学习的人工智能程序和传统程序的差别在哪里？

前一个讨论

如何评价斗鱼主播 yyf 举办的高校杯 dota2 比赛？

下一个讨论

如何看待中国企业“霸榜”全球隐私技术专利排行榜，目前国内的隐私计算做的怎么样？

相关的话题

  如何解决测试中充斥着大量训练集中没见过的样本类型模型将其识别成非我族类仍然保持测试集的高精度？
  如何评价Hinton在加拿大多伦多大学关于用“capsule”作为下一代CNN的演讲？
  自学深度学习是怎样一种体验？
  为什么神经网络具有泛化能力？
  有哪些令你印象深刻的魔改transformer？
  能否对卷积神经网络工作原理做一个直观的解释？
  为什么都说神经网络是个黑箱？
  计算流体力学（CFD）里应用注意力机制（attention）是否可行？
  基于深度学习的自然语言处理在 2016 年有哪些值得期待的发展？
  在推荐系统中，如何较好的采用深度学习方法获取用户长短期兴趣？
  如何评价移动端吊打一切万众期待的商汤深度学习推理框架PPL开源了却没有支持移动端？
  如何理解链接预测（link prediction）？
  如何看待NLP领域最近比较火的prompt，能否借鉴到CV领域？
  CNN（卷积神经网络）、RNN（循环神经网络）、DNN（深度神经网络）的内部网络结构有什么区别？
  卷积神经网络如果将池化层去除，与神经网络的区别还大么？
  如何看待在某度搜不到megengine官网？
  深度学习中有哪些数据增强方法？
  Yann LeCun、Geoffrey Hinton或Yoshua Bengio能得图灵奖吗？
  如何评价 2018 年度图灵奖颁发给三位深度学习之父？
  为何感觉“知识蒸馏”这几年没有什么成果？
  如何评价微软正在开发的人工智能编程软件 DeepCoder？
  神经元之间的连接方式是怎样的，感觉如果按树突到轴突方式(多冲动聚为一个冲动)的话连接只会越连越少啊？
  深度神经网络（DNN）是否模拟了人类大脑皮层结构？
  如何解读 Jeff Dean 等联合在 arXiv 上发布的用深度学习分析电子病历的论文？
  阿里的TDM树深度模型为什么很少有人用，是有哪些问题吗？
  如何评价 Kaiming 团队新作 Masked Autoencoders (MAE)？
  深度学习在生物信息领域有什么应用？
  为什么神经网络具有泛化能力？
  AI（或者说神经网络/深度学习）能够实现科学（尤其是物理学）研究中提出假设这一步嘛？
  如何评价Deepmind自监督新作BYOL？

© 2025-06-15 - tinynew.org. All Rights Reserved.
© 2025-06-15 - tinynew.org. 保留所有权利