提一个和 Bayesian Persuasion有关的。
楼上有人提到multi-armed bandit问题,bandit问题抓住了机器学习中一个经典的exploration vs exploitation trade-off。但是传统的bandit问题有一个很强的action commitment假设,就是学习者(learner)有能力去采取自己想要采取的动作(action, 如选取哪个arm)。但在实际应用中,这个假设往往是不成立的,尤其是在推荐系统里。
比如对于Yelp来说,它想要通过收集用户对于餐馆的反馈来学习这个餐馆的质量具体怎么样。而最近当你周围新开了一家餐馆(arm)时,去吃的人很少,因此Yelp收到的反馈很少,而且即使有反馈,方差也很大。因此即使Yelp想要推荐这个餐馆给你,你也大概率不会去,一是因为这个餐馆的review比较少,二可能是因为这家餐馆的rating没有其他餐馆好。所以在这种情况下,如果Yelp不采取任何干预,那么Yelp是大概率不会获得这个餐馆的反馈,即使Yelp把这家餐馆推荐给了他的用户。
这个问题的核心是我们在保证exploration vs exploitation的trade-off情况下,该怎么能够去incentive用户去采取我想要采取的行动。因此之前的trade-off变成了:
exploration vs exploitation vs incentives
而具体的解决办法,学界里主要有两种:
Frazier, Peter, et al. "Incentivizing exploration." Proceedings of the 15th ACM conference on Economics and computation. 2014.
2. 通过信息不对称的方式来incentive用户,这个方向主要利用了对于平台(learner, 比如上面例子中的Yelp)拥有比用户更多的信息的优势,那么我可以设计特定的information structure,从而改变用户对于某个arm质量的posterior,以此来达到incentive的目的。这个方向有一系列的工作,主要是MSR NYC的Alex参与其中的,比如:
Mansour, Yishay, Aleksandrs Slivkins, and Vasilis Syrgkanis. "Bayesian incentive-compatible bandit exploration."Proceedings of the 16th ACM Conference on Economics and Computation. 2015.
Mansour, Yishay, et al. "Bayesian exploration: Incentivizing exploration in bayesian games."Proceedings of the 17th ACM Conference on Economics and Computation. 2016.
第2个方向的工作主要是借鉴了2011年发表在AER上的 Bayesian Persuasion框架,结合得可谓相当完美了哈哈哈哈。
以上几篇paper主要考虑得还是算法的efficiency,即在有incentive的要求下,算法是否还能达到sublinear regret (一个在bandit问题中常见的优化目标),如果能达到,那么能否使算法达到最优(即match lower bound)。
有兴趣的小伙伴可以参考这个tutorial: http://slivkins.com/work/ec17-tutorial-description.pdf
感觉有点偏题,因为在这个问题下,与其说是机器学习在理论经济学研究可能应用场景,倒不如说理论经济学给机器学习提供了哪些新的insight。传统的机器学习要么直接忽略了参与算法的participant,要么直接给予了很强的假设。但在实际生活中,这些忽略和假设都可能会造成比较严重的问题。因此在考虑一个合理的participant behavior model下,机器学习算法该如何改进使其自身更加robust,应该会是一个比较有趣的研究方向。
除了把 Bayesian Persuasion放在online learning 框架中, 还有一个方向是研究signaling design,这个方向和machine learning就不怎么相关了,更主要的是TCS方向的内容,研究Hardness的问题。这一块的工作有:
Dughmi, Shaddin. "On the hardness of signaling."2014 IEEE 55th Annual Symposium on Foundations of Computer Science. IEEE, 2014.
Dughmi, Shaddin, and Haifeng Xu. "Algorithmic bayesian persuasion." Proceedings of the forty-eighth annual ACM symposium on Theory of Computing. ACM, 2016.
有兴趣的小伙伴可以参考这个tutorial: http://teamcore.usc.edu/people/haifeng/information-ec18/index.html