百科问答小站 logo
百科问答小站 font logo



Batch Normalization 训练的时候为什么不使用 moving statistics? 第1页

  

user avatar   wang-feng-98-82 网友的相关建议: 
      

因为用moving statistics的话,不能对这些统计量求导,这样会少很多梯度的性质。

例如除以标准差后的梯度方向,是与feature垂直的(严谨一点,减均值之后的feature),所以用这个梯度更新不会引起feature scale的剧变,从而解决了梯度爆炸/消失。

用moving average,不对标准差求导,梯度方向跟之前是一样的,只是乘了一个系数而已。这样只能吃到BN前向的好处,吃不到BN反向传播的好处。

但其实仍然有方法可以利用moving statistics来做到类似的性质,本质上是在反向过程也用moving average统计一些参数,具体请参考: Towards stabilizing batch statistics in backward propagation of batch normalization。




  

相关话题

  如何评价 MSRA 最新的 Deformable Convolutional Networks? 
  Graph Attention Network的本质是什么? 
  除了深度学习,机器学习领域近年来还有什么热点吗? 
  如何评价CUHK以及Yuanjun Xiong提出的Trajectory Convolution? 
  如何用FPGA加速卷积神经网络(CNN)? 
  attention跟一维卷积的区别是啥? 
  如何评价周志华教授新提出的 Deep Forest 模型,它会取代当前火热的深度学习 DNN 吗? 
  为什么现在的CNN模型都是在GoogleNet、VGGNet或者AlexNet上调整的? 
  为什么图形学的会议siggraph的论文代码很少会开源?好像视觉如CVPR、ICCV开源的更多一些。 
  马上计算机研一,想问一下机器学习、深度学习…大家都是怎么入门的? 

前一个讨论
为什么图形学的会议siggraph的论文代码很少会开源?好像视觉如CVPR、ICCV开源的更多一些。
下一个讨论
计算机专业大一寒假该如何规划?





© 2025-04-23 - tinynew.org. All Rights Reserved.
© 2025-04-23 - tinynew.org. 保留所有权利