百科问答小站 logo
百科问答小站 font logo



什么是博弈机器学习? 第1页

  

user avatar   zhenlingcn 网友的相关建议: 
      

博弈机器学习是微软亚洲研究院刘铁岩教授于2013年IJCAI会议上提出的一种机器学习范式。这里我就基于IJCAI 2013的那篇论文《A Game-theoretic Machine Learning Approach for Revenue Maximization in Sponsored Search》对博弈机器学习做一下简单的解析吧。

一句话概述

这篇博弈机器学习论文核心方案是通过机器学习算法对广告出价场景的广告商出价行为进行建模,并使用演化算法基于出价模型优化竞价策略,从而最终得到比传统竞价策略更优的搜索引擎竞价策略。

竞价策略制定概述

对于每一次点击的收费,搜索引擎可以按照下一位广告商的出价对当前被点击的广告商进行收费。

而广告商的效用函数就可以定义为实际收益 减去广告费用 。

而搜索引擎的收益 就是根据竞价策略 和商家出价 进行计算。

从上面三个公式可以看出,搜索领域的广告竞拍问题实际上是一个双层优化问题。即广告商的目标是在当前的竞价策略 下,通过制定出价策略 ,从而可以实现花费金额 最小的目标。而在这个目标之上,搜索引擎的目标则是制定一个竞价策略 ,使得最终收益 最大。由于这篇论文是数据驱动的竞价策略制定,因此上述的广告商收益 和搜索引擎收益 会与历史数据 密切相关。总的来说,上述双层优化问题可以描述为以下形式。

商家出价模型

第一种计算方式为基于频率统计的计算方式,即统计在每一种 场景下,商家选择从出价 转移到出价 的概率。

第二种计算方式则是假设用户的下一次出价方案符合一个高斯分布,而这个高斯分布的均值则根据这一轮的出价 ,通过一个线性模型进行转换。

线性模型的输入为上面的 ,经过参数 变换之后,可以得到下一轮出价的均值 。

而这个线性模型中的参数 则是根据历史数据拟合得到。

优化算法

根据上面的建模方法,得到了商家的出价模型 之后,可以计算出商家出价 。同时再辅助以用户行为 ,就可以得到如下所示的竞价策略期望收益。

至于具体优化的竞价策略,该论文选择了经典的CTR排序模型作为优化基准,通过演化算法优化下面公式中的 值,从而得到收益最大的竞价策略。

基于该CTR排序分数 ,推荐系统将该分数乘以广告商出价 ,就得到了最终每个广告的评分。而整个竞价策略的优化思路就是通过优化 值,从而间接优化CTR排序分数 ,最终得到收益最大的广告排序方案。

实验结果

下图展示了不同竞价策略的实验结果,从实验结果来看,通过上述方法生成的竞价策略(BOA)相比传统竞价策略(GSP)具有更高的平均收益。

总结

随着近几年博弈论+多智能体学习的盛行,博弈机器学习也逐渐受到了关注。从上面的广告竞价场景中可以看出,博弈机器学习毫无疑问是机器学习领域一个非常值得研究的领域。而博弈机器学习的核心主要分为两个模块,第一个模块是使用机器学习算法学习到各博弈参与方的行为,第二个模块是使用演化算法对相关博弈机制进行优化,使得最终博弈参与方在达到稳态的情况下收益最大。在未来,博弈机器学习的潜在研究方向可能包括两个部分,即探究如何使用机器学习模型更好地学习博弈参与方的行为,或探究如何使用演化算法更高效地优化博弈机制。

总而言之,博弈机器学习源自真实的广告竞价问题,目前已经在机器学习领域产生了一定程度的影响。而在未来,随着相关技术的进一步发展,博弈机器学习毫无疑问会成为一个非常有应用前景的研究方向。




  

相关话题

  为什么机器学习解决网络安全问题总是失败? 
  编写基于机器学习的程序,有哪些编写和调试的经验和窍门? 
  深度学习的多个loss如何平衡? 
  如何看待Geoffrey Hinton的言论,深度学习要另起炉灶,彻底抛弃反向传播? 
  如何评价 UCLA 朱松纯教授近日访谈中对深度学习的批评? 
  是不是机器学习的框架都偏向 Python ?如果是,为什么? 
  彩票也有规律吗? 
  实验室一块GPU都没有怎么做深度学习? 
  机器学习的理论方向 PhD 是否真的会接触那么多现代数学(黎曼几何、代数拓扑之类)? 
  如何看待Yoav Goldberg 怒怼来自MILA的GAN for NLG的paper? 

前一个讨论
四人纳什均衡题目该怎么做?
下一个讨论
如何解释一个关于纳什均衡的问题?





© 2024-11-09 - tinynew.org. All Rights Reserved.
© 2024-11-09 - tinynew.org. 保留所有权利