百科问答小站 logo
百科问答小站 font logo



只有正样本和未标签数据的机器学习怎么做? 第1页

  

user avatar   huo-hua-de-41 网友的相关建议: 
      

这个问题超有趣,推荐系统里有类似的场景,即只有用户点击浏览购买的正样本,却没有显性负样本,这样该如何学习呢?

我们假设下面几种方案:

  1. 对于一个用户,用他所有没有过行为的数据作为负样本
  2. 对于一个用户,从他没有过行为的负样本中均匀采样出一些作为负样本
  3. 对于一个用户,从他没有过行为的负样本中均匀采样出一些作为负样本, 且保证正负样本比为1:1
  4. 对于一个用户,从他没有过行为的负样本中均匀采样出一些作为负样本,但采样时,偏重采样那些热门却没有点击的样本。

对于第一种方法,缺点太明显,在实际样本中,负样本数量远远超过正样本,正负样本比例太悬殊,效果最差。

而第三种方法好于第二种,因为第三种样本比例比较平衡。

最有趣的莫过于第四种方案了,在2011年举办的KDD cup的Yahoo!music推荐比赛中,大家发现选取热门却没有行为的样本进行负采样效果最好!

因为热门物品大概率曝光过,而用户没有点,说明用户不感兴趣;而冷门物品,用户压根就没见到过,根本谈不上是否感兴趣。

一个看似简单的办法,背后却是对用户及数据逻辑深刻的洞察,这才是机器学习最有魅力的地方。




  

相关话题

  GAN生成的数据没有标签怎么用来训练分类模型? 
  在机器学习模型的训练期间,大概几十分钟到几小时不等,大家都会在等实验的时候做什么? 
  如何对用户进行聚类分析? 
  如何评价MXNet发布的1.0版本? 
  如何评价 UCLA 朱松纯教授近日访谈中对深度学习的批评? 
  如何理解“from xxx import *这种写法会给你带来无穷无尽的噩梦?”? 
  未来20年,新技术将从哪些方面改变人的消费方式? 
  很多人都说 C# 语法怎么优雅,仅仅是因为 C# 的关键字多吗? 
  未来 3~5 年内,哪个方向的机器学习人才最紧缺? 
  语音识别中,声学模型与语言模型扮演什么角色?或者说是怎么通过两个模型进行语音识别的? 

前一个讨论
物理学家通过计算得到的结果是否有意义?
下一个讨论
为什么没有围绕行星的卫星转动的星体?





© 2025-02-20 - tinynew.org. All Rights Reserved.
© 2025-02-20 - tinynew.org. 保留所有权利