百科问答小站 logo
百科问答小站 font logo



关于tensorflow中的滑动平均? 第1页

  

user avatar   bingo-hong-36 网友的相关建议: 
      

说下自己的理解吧。

我认为两者是独立的。理由如下:

  • tf.train.ExponentialMovingAverage做为一个滑动平均类,其在对变量施加滑动平均操作的时候是会维持一个影子变量来记录其对应变量的滑动平均值。并且滑动平均过程,不会改变变量本身的值。
  • 由于滑动平均过程并不会改变变量本身的值,因此认为变量权重更新的过程与滑动平均过程是互相不干扰的。
  • 从代码训练的角度来说,施加滑动平均类的tf代码中,要保证训练神经网络过程中,既要根据反向传播更新参数又要更新每一个滑动平均值。因此认为其更新顺序,是更新后的变量,再做滑动平均。如下代码:
       with tf.control_dependencies([train_step,variable_average_op]):      train_op = tf.no_op(name="train")     

以上是个人理解,仅仅从ema原理和代码训练角度猜测了下,具体没有看过源码,不敢随意下结论。仅供参考吧~




  

相关话题

  有哪些人工智能上的事实,没有一定人工智能知识的人不会相信? 
  国内哪些公司在用caffe、torch、TensorFlow、paddle等框架,哪些在用自研框架? 
  国内 top2 高校研一在读,为什么感觉深度学习越学越懵? 
  现代人工神经网络是不是一个死胡同?这个技术是不是骗人的? 
  机器学习,深度神经网络等方法是否是正确的方向? 
  为什么 larger batch size 对对比学习的影响比对监督学习的影响要大? 
  请问一下,机器学习领域的联邦学习技术,目前看到最多的是微众银行,国内还有哪些顶级专家及机构和大学? 
  如何看待 Google 既可以作 Inference,又可以作 Training 的新一代 TPU? 
  如何评价AWS的图神经网络框架DGL? 
  让人工智能去下路边街头的象棋残局会赢吗? 

前一个讨论
希腊神话中,男女一体后来被宙斯劈成两半的神叫什么名字?
下一个讨论
机器学习中使用正则化来防止过拟合是什么原理?





© 2025-05-04 - tinynew.org. All Rights Reserved.
© 2025-05-04 - tinynew.org. 保留所有权利