首页

如何理解 natural gradient descent? 第1页

whearer 网友的相关建议:

将分布之间的Fisher information matrix (FIM)看成是统计流形上的黎曼度量，然后用流形上的最速下降方向作为搜索方向，就是自然梯度。这是一种概念上比较简洁漂亮的处理方式，但显然不是一种最容易理解的方式，很多人第一次接触到的时候都是有些懵的。

思路上更简单直接的方式可能是从约束优化来理解。考虑一个基本的函数，考虑概率分布上的优化问题

如果我们想找参数化的分布，使得E(f)的改进程度最大，最直观的方法自然是直接对E(f)做一步梯度下降。但是由于和是概率分布，他们之间的距离不是用参数之间的欧式距离来定义的（简单来说，沿梯度下降一步之后的可能不满足分布参数的要求，比如正态分布的协方差矩阵变得不正定了），而是用分布之间的KL-divergence来定义的

由于这个KL-div 不对称，它不满足距离的定义。同时由于比较小，我们可以对此式展开做二阶近似

其中就是Fisher information matrix 的分量，换句话说，FIM就是KL-div的二阶近似

这可以进一步的写成 , 即Fisher矩阵是log- p的Hessian的期望，与二阶信息密切相关。

回到原来的优化问题，我们面对的问题变成了

将上面的KL-div的二阶近似带入，构造Lagrange 函数，就有

此式可以写成矩阵形式对此式稍作推导，就得到最速下降方向

这里的是一个的无穷小量。这个方向就是所谓的自然梯度方向。

可以看到，这里的推导没有用到任何微分几何和黎曼度量的概念，唯一用到的就是概率分布之间的KL-div 和它的二阶近似，然后套用约束优化的拉格朗日乘子，也就无所谓“自然”了。当然，这里的推导会比黎曼度量-自然梯度更加技术化一些，技术化的东西相对来说不容易推广。

自然梯度和牛顿法是有关联的，在某些特殊情况下可以认为是Gauss-Newton法的近似。

以上内容最后编辑于 2018.3

更新：多角度理解自然梯度

如何理解 natural gradient descent? 的其他答案点击这里