共轭分布(conjugate distribution)与共轭先验(conjugate prior),其实是两个非常也有意思的概念。
在说共轭分布共轭先验之前,我们先说说什么是共轭。
首先应该你可以记得起来的应该是复数的定义中:
为什么它两被称为共轭呢?
因为它两如果在复平面上表示的话,关于实轴对称!所以我们的直观理解就是
共轭是某种意义上的“对称”!
接下去,或许你还会想起的是一个叫共轭双曲线的东西,即下面那个东东
看着图,应该可以找到两组双曲线吧?说到双曲线或许高中的小伙伴应该不陌生吧,刻画双曲线的几个重要量,焦点,渐近线,离心率。在这个图中我们可以看到,
它们共渐进线,它们的焦点都在一个圆上,他们的离心率的倒数的平方和等于1.
因而他们有相同的地方,他们也有不同的地方。所以在这里共轭直观的理解可以是
共轭描述的某些重要指标相同,某些量互补。
在下面如果你了解矩阵就应该知道矩阵中也有个非常重要的共轭概念--共轭矩阵,或者说是自共轭矩阵也叫Hermite阵,即矩阵的第i行第j列都与第j行第i列共轭相等(按照复数的共轭定义):
比如,这样的一个矩阵:
观察一下这个矩阵,应该可以想到一个共轭矩阵的主对角线必然是实数,因为 那么b肯定只能是0。另外所有实对称矩阵自然都是共轭矩阵啦,对不?这里的共轭矩阵会带来很多优秀的性质。在这里,我们可以直观的理解是:
共轭会保证一些优秀的性质,以便于之后的分析计算。
其实看到上面这一些的共轭,大家应该对共轭这个词语有了一定的了解。现在我们来说说分布意义上的共轭。既然这个数字可以有共轭,曲线可以有共轭,矩阵可以有共轭,那么分布为什么不能有共轭呢?说到这个分布意义下的共轭,必然离不开那个经典的贝叶斯推断的公式:
后验 = 先验 * 似然!
首先说说这三者的关系,任意一个模型都是有observation和参数构成的吧。区别于频率学派,贝叶斯的世界中,所有的参数并不是一个固定的数字,而是一个个的随机变量,既然是随机变量,那么我们自然可以假定(或者根据经验要求)其来自某一个已知的性质良好的概率分布,对吧?这个概率分布我们称之为“先验prior distribution”。
那什么是似然呢?
The likelihood function(often simply called the likelihood) describes the joint probability of the observed dataas a function of the parameters of the chosen statistical model.[
似然是我们认定的,用来描述观测值在给定参数的时候的联合分布的概率!这是个既定事实,这代表了我们对于这个问题的看法,一般的模型建立后就不会去更改。你肯定了它的likelihood是高斯的那么它一直都是高斯的。
那什么是后验呢?后验就是根据你给出的prior和确定下来的likelihood,由贝叶斯公式计算出来的东西。它表示了大家对于参数的看法在给定observation之后的更新!这些都是贝叶斯统计的基础内容,相信大家已经看过好多的文章介绍了吧,这里就不多叙述啦!
那什么是共轭分布(conjugate distribution)呢?
In Bayesian probability theory, if the posterior distribution p(θ | x) is in the same probability distribution family as the prior probability distribution p(θ), the prior and posterior are then called conjugate distributions,and the prior is called a conjugate priorfor the likelihood function p(x |θ).
即,先验与后验来自于同一个族的概率分布。
为什么说是同一个族的概率分布而不是同一个概率分布呢?
因为即便是高斯分布,mean或者variance一变,自然就是不同的分布了哈!这个先验算上likelihood自然不可能跟后验是exact same distribution啦,那么自然只能退而求其次,同一个类型的分布啦!即先验是高斯分布的,给定某个likelihood下,后验也是高斯分布,那么我们就叫这个两个分布是共轭分布,这个先验叫做是基于这个给定的likelihood下的共轭先验。
比如一般假定高斯的likelihood(一直variance,模型参数只有mean)下,高斯分布的共轭分布还是高斯(当然这里其实还有好多好多的情况, 详情请见:https://en.wikipedia.org/wiki/Conjugate_prior)。从形式上来讲,即
其中一个高斯的密度函数乘以一个高斯的密度函数,无视系数的情况下还是可以写成一个高斯密度函数的形式!
其实仔细想来,这样的分布意义下的共轭是不是也挺满足一般意义下共轭的说法呢?
1。 对称。 emmmm, 如果把likelihood看做是一个实轴一样的东西,那其实这不就是两个分布在依赖于likelihood的情况下,翻过来翻过去吗?
2。 有些相似有些不同。相似的是他们都具有相同的分布族,对吧?不同是是在贝叶斯统计中,一个位于prior的位置,另一个位于posterior的位置上。是不是也有些像那个双曲线的图呢?一组是左右的,一组是上下的,但是他们共用渐近线和焦点都在同一个圆上呢?
3。保证优秀的性质。这点其实才是最为核心的原因,当然也是最实用的哈!
为什么呢?因为贝叶斯统计所操作是整天都是prior,likelihood,posterior,对吧?如果先验和后验同属一个分不族,计算上自然是好很多,可以大大简化很多的计算过程。另外,一旦是共轭分布,那么在很多需要积分的地方则可以直接给出显式的数学表达式,而不需要使用数值方法去计算!
同时,不计算的情况下,也可以为贝叶斯统计推断提供一些最为直观快速的inspiration!