谢邀。先给结论:KL散度描述了我们用分布来估计数据的真实分布的编码损失。
然后我们来唠一唠这个神奇的KL散度。KL散度(Kullback-Leibler Divergence)是用来度量两个概率分布相似度的指标,它作为经典损失函数被广泛地用于聚类分析与参数估计等机器学习任务中,我们从以下几个角度对KL散度进行介绍:
假设对随机变量,存在两个概率分布。如果为离散随机变量,定义从到的KL散度为:
如果为连续随机变量,则定义从到的KL散度为:
注意连续随机变量的KL散度可以看作离散随机变量KL散度求和的极限,为了叙述简洁我们只讨论离散KL散度。
,当且仅当。
证明(我们仅对离散情况进行证明,对于连续随机变量情况,我们将积分化为求和的极限后可以用相同方式证明):
我们只需要证明。采用不等式,则:
等号当且仅当对于任意的,时取得,此时有。
假设,那么:
证明:
利用随机变量的变换公式,我们有:
在一定条件下可以趋向于无穷。
KL散度描述了我们用分布来估计数据的真实分布的编码损失。
假设我们对于离散随机变量进行了次采样,并得到了取值的一组观测(描述了随机变量取值为的次数),记为分布取值为的概率,即,那么观测由分布生成的概率可以写成:
如果我们只观测一次,那么显然存在一个唯一的使得,而这种观测的由分布生成的概率为,记作。如果我们进行次观测,那么可以由第n次观测所递推而来,即
注意到服从伯努利大数定律,它将收敛到随机变量取值为的真实概率,因此当我们进行无数次观测(即),则可能会收敛,也可能会发散。如果,那么会收敛(),此时代表分布可以很好估计真实分布,而其它情况则可能会发散。为了描述进行一次观测的平均概率,我们对次观测采用几何平均数,记作:
用来描述的真实分布,如果,那么,。如果,那么则可能不会收敛。令,此时我们有:
利用,,以及当 ,,此时有这两个结论,我们将重写为:
注意到:
我们可以将简化为:
因此我们有:
由上所述,当两个分布的概率密度函数几乎处处相等的时候,有,此时,当两个分布相差太大的时候,,。KL散度度量了在对随机变量的采样过程中,的真实分布与我们的假设分布的符合程度。
我们可以用KL散度来度量两个随机变量的独立性:
如果统计独立,那么。
同时,在信息论的角度,定义随机变量的交叉熵为:
此时有:
假设为多元正态分布随机向量,且
那么
证明:
计算时有一个trick为:
其实这里利用了这个矩阵计算技巧。同时注意这里还有第二个trick为:在的分布下,但是因为服从分布,则不等于。用这些trick进行进一步计算为:
代入我们有:
本文使用 Zhihu On VSCode 创作并发布
统计距离的定义
在欧式空间,如果要衡量两个 维空间中的点 和 之间的距离,通常可以使用 范数来进行描述,其数学公式是:
在统计学中,如果需要衡量两个统计对象之间的“距离”,在离散的场景下除了可以使用欧式距离之外,还可以使用其他的统计距离来描述这两个统计对象之间的距离。与之对应的,在连续的场景下,同样可以定义出两个统计对象之间的距离。
距离是定义在集合 的函数 并且满足以下条件:
而广义的距离会缺少其中一个或者多个条件,例如时间序列领域中的 DTW 距离就不满足三角不等式。
在微积分中,凸函数(convex 函数) 指的是在其定义域内的任意两个点 满足 换言之,如果凸函数 存在二阶连续导数,那么 是增函数,
其次,在统计距离中,通常会基于一个函数 来定义两个概率分布之间的距离。该函数 是一个凸函数(convex function),并且满足 对于空间 中的两个概率分布 和 而言,
定义了概率分布 和 的 散度(f-divergence),其中 分别对应了 的概率密度函数。不同的函数 对应了不同的散度,常见的散度包括但不限于:
在这样的定义下, 是非负函数,i.e. 事实上,
在数学中有如下定理:如果 是凸函数,那么 在定义域 也是凸函数。
根据以上定理,可以得到:对于 有
除了 散度之外,直接使用 范数也可以定义两个概率空间的距离,特别地,当 时,其距离公式是:
统计距离的函数分析
事实上,对于 KL 散度和 Reverse KL 散度而言,令
这就是函数 分别对应着 KL-散度和 Reverse KL-散度相应函数的原因。
类似地,对于函数 和 而言,可以直接证明得到:
对于 Jensen-Shannon Divergence(简写为 JSD)而言,
其中 i.e.
对于 Hellinger Distance 而言, 其实这两个函数是等价的,因为
其中 被称为 Bhattacharyya 系数(Bhattacharyya Coefficient),Bhattacharyya 距离则定义为
统计距离的上下界分析
对于以上函数而言,由于凸函数 因此当 时,
KL 散度是没有上界的,但是 Jensen Shannon Divergence 是具有上界的。事实上,如果 则有
同样地, 所以可以得到
根据 Hellinger 距离的公式,可以得到: 同时,Bhattacharyya 距离 是没有上界的,因为 可以取值到零。
考虑 范数中 三种情况:
并且上界 2 是可以取到的。
证明以上不等式使用了性质
多重集合的定义与性质
在数学中,集合(set)中不能够包含重复的元素,但一个多重集合(multiset)中则可以包含重复的元素,并且计算了元素的重数。例如,
对于一个有限集合 而言,其多重集合可以记为 或者 其中 表示元素 的重数。多重集合的一个典型例子就是质因数分解,例如:
假设多重集合 的元素都属于集合
假设 那么
多重集合的相似度和距离
由于已经定义了多重集合的交集和并集,因此集合相似度中的 Jaccard 相似度,Overlap 相似度都可以应用到多重集合中。
对于多重集合 而言,令 因此,多重集合 对应了一个离散的概率分布 于是,可以使用以上的统计距离(Statistical Distance)来计算两个多重集合之间的距离。
女王:求求题主放过我,我可不敢有什么政绩。。。