百科问答小站 logo
百科问答小站 font logo



什么是博弈机器学习? 第1页

  

user avatar   zhenlingcn 网友的相关建议: 
      

博弈机器学习是微软亚洲研究院刘铁岩教授于2013年IJCAI会议上提出的一种机器学习范式。这里我就基于IJCAI 2013的那篇论文《A Game-theoretic Machine Learning Approach for Revenue Maximization in Sponsored Search》对博弈机器学习做一下简单的解析吧。

一句话概述

这篇博弈机器学习论文核心方案是通过机器学习算法对广告出价场景的广告商出价行为进行建模,并使用演化算法基于出价模型优化竞价策略,从而最终得到比传统竞价策略更优的搜索引擎竞价策略。

竞价策略制定概述

对于每一次点击的收费,搜索引擎可以按照下一位广告商的出价对当前被点击的广告商进行收费。

而广告商的效用函数就可以定义为实际收益 减去广告费用 。

而搜索引擎的收益 就是根据竞价策略 和商家出价 进行计算。

从上面三个公式可以看出,搜索领域的广告竞拍问题实际上是一个双层优化问题。即广告商的目标是在当前的竞价策略 下,通过制定出价策略 ,从而可以实现花费金额 最小的目标。而在这个目标之上,搜索引擎的目标则是制定一个竞价策略 ,使得最终收益 最大。由于这篇论文是数据驱动的竞价策略制定,因此上述的广告商收益 和搜索引擎收益 会与历史数据 密切相关。总的来说,上述双层优化问题可以描述为以下形式。

商家出价模型

第一种计算方式为基于频率统计的计算方式,即统计在每一种 场景下,商家选择从出价 转移到出价 的概率。

第二种计算方式则是假设用户的下一次出价方案符合一个高斯分布,而这个高斯分布的均值则根据这一轮的出价 ,通过一个线性模型进行转换。

线性模型的输入为上面的 ,经过参数 变换之后,可以得到下一轮出价的均值 。

而这个线性模型中的参数 则是根据历史数据拟合得到。

优化算法

根据上面的建模方法,得到了商家的出价模型 之后,可以计算出商家出价 。同时再辅助以用户行为 ,就可以得到如下所示的竞价策略期望收益。

至于具体优化的竞价策略,该论文选择了经典的CTR排序模型作为优化基准,通过演化算法优化下面公式中的 值,从而得到收益最大的竞价策略。

基于该CTR排序分数 ,推荐系统将该分数乘以广告商出价 ,就得到了最终每个广告的评分。而整个竞价策略的优化思路就是通过优化 值,从而间接优化CTR排序分数 ,最终得到收益最大的广告排序方案。

实验结果

下图展示了不同竞价策略的实验结果,从实验结果来看,通过上述方法生成的竞价策略(BOA)相比传统竞价策略(GSP)具有更高的平均收益。

总结

随着近几年博弈论+多智能体学习的盛行,博弈机器学习也逐渐受到了关注。从上面的广告竞价场景中可以看出,博弈机器学习毫无疑问是机器学习领域一个非常值得研究的领域。而博弈机器学习的核心主要分为两个模块,第一个模块是使用机器学习算法学习到各博弈参与方的行为,第二个模块是使用演化算法对相关博弈机制进行优化,使得最终博弈参与方在达到稳态的情况下收益最大。在未来,博弈机器学习的潜在研究方向可能包括两个部分,即探究如何使用机器学习模型更好地学习博弈参与方的行为,或探究如何使用演化算法更高效地优化博弈机制。

总而言之,博弈机器学习源自真实的广告竞价问题,目前已经在机器学习领域产生了一定程度的影响。而在未来,随着相关技术的进一步发展,博弈机器学习毫无疑问会成为一个非常有应用前景的研究方向。




  

相关话题

  有什么深度学习数学基础书推荐? 
  深度学习方面还有什么Open Problem? 
  A、B向航空公司索赔,航空公司请他们在100元内写下花瓶的价格,如果价格一样就按该价格的问题? 
  关于材料计算,模拟,仿真什么区别? 
  有哪些比较好的元学习(meta learning)领域的学习资源? 
  resnet(残差网络)的F(x)究竟长什么样子? 
  如果百年后深度学习最终有了公认的数学理论作为基础,能解释实验中的各类玄学,那这个理论会长什么样子? 
  可以用博弈论解释论语或者其他先贤著作吗? 
  计算机视觉是否已经进入瓶颈期? 
  一个快递箱,有一个快递员有100件快递要投递,你排在快递员后面有一件快递要取,你有权要求他先让你取吗? 

前一个讨论
四人纳什均衡题目该怎么做?
下一个讨论
如何解释一个关于纳什均衡的问题?





© 2025-05-15 - tinynew.org. All Rights Reserved.
© 2025-05-15 - tinynew.org. 保留所有权利