百科问答小站 logo
百科问答小站 font logo



机器学习以及贝叶斯统计里,关于近似intractable integral,大家都偏爱什么算法? 第1页

  

user avatar   zi-yuan-35 网友的相关建议: 
      

假设有先验和似然,现在要求,但分母那个积分并不能直接求出,这是我们要解决的问题。

Gaussian quadrature

是基于格点一维积分的数值算法。这种一维数值积分算法很难直接推广到高维积分,因为所需格点数量随维数指数增长。也有一些确定性的基于稀疏格点的数值算法,不过限制比较多,在这个问题上大家不关心这类数值算法。

Laplace (Gaussian) approximation 的想法是由于(是的MAP,),因此可以通过高斯积分算出。好处是简单,坏处是显然不能什么分布都拿正态分布去近似。实际中多作为trick使用。例子请在

Machine Learning: A Probabilistic Perspective

中搜索 Gaussian approximation,其中包括了

Bayesian information criterion

的推导。

Variational inference

的目标是求一个使得最小,最终表现形式为 mean field approximation。由于涉及到优化,所以一个方向是关于把大规模优化的东西用到variational inference上。例子:

Stochastic Variational Inference

Markov chain Monte Carlo

就是直接从采样了。过程是

1. 假设当前位置为,现从某个容易采样的proposal 分布中采一个;

2. 以概率(请翻书)接受或拒绝。如果接受了,,否则。如此一来这个的Markov链的稳态分布恰好就是。

实际使用中可能会有各种问题,比如说很难从分布的一个 mode 跳到另一个 mode 啦,于是有人提出

The No-U-Turn Sampler: Adaptively Setting Path Lengths in Hamiltonian Monte Carlo

(大致就是下个样本走得越远越好,no U-turn),并在其上做了个

Stan

,实现了全自动基于 NUTS 的 full Bayesian inference(输入生成模型的描述及数据,输出模型参数的采样样本,带某种程度的可视化)。

另外也有关于并行化的一些研究,可以自己搜一下。

(小知识:其他做 Bayesian inference 的包还有

BayesPy

PyMC

等等)

MCMC 中的接受概率是跟似然函数有关的,假如连这个也很难具体算出来,那么可以考虑

approximate Bayesian computation

,做所谓的 likelihood-free inference:在采到后,用它来生成数据,如果就接受,否则拒绝,这里是某个统计量,是某个距离。

另外可以参考

Handbook of Markov Chain Monte Carlo

,上面有 MCMC 的各种推广及改进。

MCEM 就是把 MCMC 用到EM中的E步。相应地有 variational EM。Machine Learning: A Probabilistic Perspective 11.4.9 有两者及其他一些EM变种的简介。

关于 variational inference 跟 sampling 算法的比较,这里原文引用 Machine Learning: A Probabilistic Perspective 第24章的导语:

It is worth briefly comparing MCMC to variational inference (Chapter 21). The advantages of variational inference are (1) for small to medium problems, it is usually faster; (2) it is deterministic; (3) is it easy to determine when to stop; (4) it often provides a lower bound on the log likelihood. The advantages of sampling are: (1) it is often easier to implement; (2) it is applicable to a broader range of models, such as models whose size or structure changes depending on the values of certain variables (e.g., as happens in matching problems), or models without nice conjugate priors; (3) sampling can be faster than variational methods when applied to really huge models or datasets.

(这里没有提到判断 MCMC 是否收敛并不是显然的,这算是一个缺点。具体参见

Handbook of Markov Chain Monte Carlo

第 6 章)

另外,

Markov Chain Monte Carlo and Variational Inference: Bridging the Gap

也许可以看一下。




  

相关话题

  机器全面代替人工劳动力的那一天,你能如何生存下去? 
  有哪些比较好的机器学习,深度学习的网络资源可利用? 
  从今年校招来看,机器学习等算法岗位应届生超多,竞争激烈,未来 3-5 年机器学习相关就业会达到饱和吗? 
  如果 2台 alphago 不断对战,是否会不断的强大? 
  如何评价知乎数据帝@chenqin和NGA用户@verycd00的统计学隔空论战? 
  如何看待西安电子科技大学偷偷给贫困生打钱,大数据精准帮助贫困生是否值得推广? 
  Word2vec 翻译到另一种语言,其向量空间之间的映射会不会是线性的? 
  机器学习里的 kernel 是指什么? 
  因果推断会是下一个AI热潮吗? 
  机器学习中macro-F1的计算公式? 

前一个讨论
一名高考状元想让自己的成绩并不够上线的女票上和自己一样的大学进而和校方交涉,学校有权利录取她吗?
下一个讨论
你实践中学到的最重要的机器学习经验是什么?





© 2024-11-24 - tinynew.org. All Rights Reserved.
© 2024-11-24 - tinynew.org. 保留所有权利