博弈机器学习是微软亚洲研究院刘铁岩教授于2013年IJCAI会议上提出的一种机器学习范式。这里我就基于IJCAI 2013的那篇论文《A Game-theoretic Machine Learning Approach for Revenue Maximization in Sponsored Search》对博弈机器学习做一下简单的解析吧。
这篇博弈机器学习论文核心方案是通过机器学习算法对广告出价场景的广告商出价行为进行建模,并使用演化算法基于出价模型优化竞价策略,从而最终得到比传统竞价策略更优的搜索引擎竞价策略。
对于每一次点击的收费,搜索引擎可以按照下一位广告商的出价对当前被点击的广告商进行收费。
而广告商的效用函数就可以定义为实际收益 减去广告费用 。
而搜索引擎的收益 就是根据竞价策略 和商家出价 进行计算。
从上面三个公式可以看出,搜索领域的广告竞拍问题实际上是一个双层优化问题。即广告商的目标是在当前的竞价策略 下,通过制定出价策略 ,从而可以实现花费金额 最小的目标。而在这个目标之上,搜索引擎的目标则是制定一个竞价策略 ,使得最终收益 最大。由于这篇论文是数据驱动的竞价策略制定,因此上述的广告商收益 和搜索引擎收益 会与历史数据 密切相关。总的来说,上述双层优化问题可以描述为以下形式。
第一种计算方式为基于频率统计的计算方式,即统计在每一种 场景下,商家选择从出价 转移到出价 的概率。
第二种计算方式则是假设用户的下一次出价方案符合一个高斯分布,而这个高斯分布的均值则根据这一轮的出价 ,通过一个线性模型进行转换。
线性模型的输入为上面的 ,经过参数 变换之后,可以得到下一轮出价的均值 。
而这个线性模型中的参数 则是根据历史数据拟合得到。
根据上面的建模方法,得到了商家的出价模型 之后,可以计算出商家出价 。同时再辅助以用户行为 ,就可以得到如下所示的竞价策略期望收益。
至于具体优化的竞价策略,该论文选择了经典的CTR排序模型作为优化基准,通过演化算法优化下面公式中的 值,从而得到收益最大的竞价策略。
基于该CTR排序分数 ,推荐系统将该分数乘以广告商出价 ,就得到了最终每个广告的评分。而整个竞价策略的优化思路就是通过优化 值,从而间接优化CTR排序分数 ,最终得到收益最大的广告排序方案。
下图展示了不同竞价策略的实验结果,从实验结果来看,通过上述方法生成的竞价策略(BOA)相比传统竞价策略(GSP)具有更高的平均收益。
随着近几年博弈论+多智能体学习的盛行,博弈机器学习也逐渐受到了关注。从上面的广告竞价场景中可以看出,博弈机器学习毫无疑问是机器学习领域一个非常值得研究的领域。而博弈机器学习的核心主要分为两个模块,第一个模块是使用机器学习算法学习到各博弈参与方的行为,第二个模块是使用演化算法对相关博弈机制进行优化,使得最终博弈参与方在达到稳态的情况下收益最大。在未来,博弈机器学习的潜在研究方向可能包括两个部分,即探究如何使用机器学习模型更好地学习博弈参与方的行为,或探究如何使用演化算法更高效地优化博弈机制。
总而言之,博弈机器学习源自真实的广告竞价问题,目前已经在机器学习领域产生了一定程度的影响。而在未来,随着相关技术的进一步发展,博弈机器学习毫无疑问会成为一个非常有应用前景的研究方向。