百科问答小站 logo
百科问答小站 font logo



如何理解 natural gradient descent? 第1页

  

user avatar   whearer 网友的相关建议: 
      

将分布之间的Fisher information matrix (FIM)看成是统计流形上的黎曼度量,然后用流形上的最速下降方向作为搜索方向,就是自然梯度。这是一种概念上比较简洁漂亮的处理方式,但显然不是一种最容易理解的方式,很多人第一次接触到的时候都是有些懵的。


思路上更简单直接的方式可能是从约束优化来理解。考虑一个基本的函数 ,考虑概率分布 上的优化问题

如果我们想找参数化的分布 ,使得E(f)的改进程度最大,最直观的方法自然是直接对E(f)做一步梯度下降。但是由于 和 是概率分布,他们之间的距离不是用参数之间的欧式距离来定义的(简单来说,沿梯度下降一步之后的 可能不满足分布参数的要求,比如正态分布的协方差矩阵变得不正定了),而是用分布之间的KL-divergence来定义的

由于这个KL-div 不对称,它不满足距离的定义。同时由于 比较小,我们可以对此式展开做二阶近似

其中 就是Fisher information matrix 的分量,换句话说,FIM就是KL-div的二阶近似

这可以进一步的写成 , 即Fisher矩阵是log- p的Hessian的期望,与二阶信息密切相关。

回到原来的优化问题,我们面对的问题变成了

将上面的KL-div的二阶近似带入,构造Lagrange 函数,就有

此式可以写成矩阵形式 对此式稍作推导,就得到最速下降方向

这里的 是一个 的无穷小量。这个方向就是所谓的自然梯度方向。


可以看到,这里的推导没有用到任何微分几何和黎曼度量的概念,唯一用到的就是概率分布之间的KL-div 和它的二阶近似,然后套用约束优化的拉格朗日乘子,也就无所谓“自然”了。当然,这里的推导会比黎曼度量-自然梯度 更加技术化一些,技术化的东西相对来说不容易推广。


自然梯度和牛顿法是有关联的,在某些特殊情况下可以认为是Gauss-Newton法的近似。

以上内容最后编辑于 2018.3

更新:多角度理解自然梯度




  

相关话题

  如何看待SIREN激活函数的提出? 
  多任务学习成功的原因是引入了别的数据库还是多任务框架本身呢? 
  2021 年了,TensorFlow 和 PyTorch 两个深度学习框架地位又有什么变化吗? 
  有哪些令你印象深刻的魔改transformer? 
  计算机视觉(cv)方向今年招聘情况怎么样?是否已经人才过剩? 
  如何评价deepmind最新在nature上发表的论文《在人工网络中用网格样表征进行基于向量的导航》? 
  如何评价基于游戏毁灭战士(Doom)的AI死亡竞赛大赛结果? 
  NLP文本匹配问题的本质是不是 对于要预测的句子,遍历候选句子 从训练数据集里寻找最相似的pair? 
  为什么神经网络具有泛化能力? 
  反馈控制理论在优化、机器学习等领域有哪些应用? 

前一个讨论
有哪些只有数学专业领域的人才懂的笑话?
下一个讨论
获得两次以上诺贝尔奖的有哪些人?有什么成就?





© 2024-09-19 - tinynew.org. All Rights Reserved.
© 2024-09-19 - tinynew.org. 保留所有权利