百科问答小站 logo
百科问答小站 font logo



最大似然估计法是如何实现的? 第1页

  

user avatar   li-dong-rong-41 网友的相关建议: 
      

一个问题一个问题往下答。。。


是如何想到设似然函数的?

直觉是有一个模型, 然后我们观测到的数据是,那我们想做的就是调整使得数据被观测到的概率最大。

但实际上有更有趣的几何解释。定义两个分布间的KL散度为

注意到

KL散度虽然不是对称的,但是它可以看作一种刻画概率分布间距离的手段,因为对任何分布, ,并且当且仅当。所以如果你把概率分布看作某个空间上的“点”的话,那么KL散度在一定程度上就刻画了这些“点”之间的距离。

那么这玩意儿跟极大似然估计有什么关系呢,关系就是极大似然估计可以看作是最小化KL散度。假设真实的参数是,那么真实的分布就是。

在极大似然估计里,我们要找到最大化的,这就等价于最大化:

又因为是定值,所以上面这个式子就等价于最大化

而根据大数定律,.

换句话说,在样本充分的情况下,极大似然估计可以被视为极小化与真实分布间的KL散度,也就在某种意义下等价于找到了一个分布,使得这个分布与真实分布间的“距离“最小。

除此以外,对于定义在有限离散空间上的分布,其KL散度满足Pinsker不等式:

考虑到距离是根正苗红的距离,所以从这个角度看的话,极大似然估计”极小化分布间距离“的意味就更加明显了。

为什么待估参数是在似然函数最大值时取得?

简单的原因(太长不看):因为在大多数情况下(你的参数空间性质比较好),极大似然估计是相合估计量(Consitent Estimator),也就是说极大似然估计依概率收敛到真实的参数,即

复杂的原因(数学定理):

假设你的参数空间为,并且在真实参数周围存在一个开邻域使得,那么如果:

(a) 在中的任一点都可微

(b) 存在g(x),使得对任意都有,并且

那么依概率收敛到真实的。

证明:超长超复杂,大概有一两页纸的样子,用了各种千奇百怪的放缩,懒得写了,有兴趣可以去查阅Keener的Theoretical Statistics 第九章.

上面的定理表明,如果你参数空间和似然函数的性质不算太差,那么极大似然估计一定可以依概率收敛到真实参数。当然,在现实生活中许多似然函数都是非凸的,所以在计算上如何求解极大似然估计一直是一个老大难问题。。。

为什么有些情况下,矩估计和最大似然估计的结果是相同的,有些情况下不是?

额。。。因为你用了不同的估计方法。。。?

不过问题不大,因为像极大似然估计一样,在模型不算太差的条件下,矩估计同样是相合估计量,也就是说在样本量足够大的情况下矩估计同样依概率收敛至真实参数。

参考资料

Larry Wasserman, All of Statistics

Keener, Theoretical Statistics

Raymond Yeung, Information Theory and Network Coding




  

相关话题

  有哪些很有趣的数据统计值得我们了解? 
  如何看待近百位科学家联合发文回应「 p 值显著标准应降至0.005」? 
  关于概率收敛的一个问题,这个命题是真命题么? 试证明,若是假命题能否给出一个反例? 
  为什么有的公司统计双十一下单额,有的统计成交额? 
  概率论中,局部极限定理和积分极限定理不是一回事吗? 
  怎样求贝叶斯估计的先验分布? 
  汉语是使用人数最多的语言,英语是使用最广泛的语言。在当今依然正确吗? 
  请问作为一个即将入学的PhD学生,怎么去发掘或者说判断出一个非常有潜力的领域呢? 
  如何证明Metropolis Hastings algorithms)能够达到马尔科夫稳态? 
  常用的机器学习算法比较? 

前一个讨论
如何阅读PBRT3?
下一个讨论
你所读的计算机科学方向,有哪些不错的讲义(Notes)?





© 2025-04-23 - tinynew.org. All Rights Reserved.
© 2025-04-23 - tinynew.org. 保留所有权利