首页

只有正样本和未标签数据的机器学习怎么做？第1页

1

huo-hua-de-41 网友的相关建议:

这个问题超有趣，推荐系统里有类似的场景，即只有用户点击浏览购买的正样本，却没有显性负样本，这样该如何学习呢？

我们假设下面几种方案：

对于一个用户，用他所有没有过行为的数据作为负样本
对于一个用户，从他没有过行为的负样本中均匀采样出一些作为负样本
对于一个用户，从他没有过行为的负样本中均匀采样出一些作为负样本，且保证正负样本比为1：1
对于一个用户，从他没有过行为的负样本中均匀采样出一些作为负样本，但采样时，偏重采样那些热门却没有点击的样本。

对于第一种方法，缺点太明显，在实际样本中，负样本数量远远超过正样本，正负样本比例太悬殊，效果最差。

而第三种方法好于第二种，因为第三种样本比例比较平衡。

最有趣的莫过于第四种方案了，在2011年举办的KDD cup的Yahoo！music推荐比赛中，大家发现选取热门却没有行为的样本进行负采样效果最好！

因为热门物品大概率曝光过，而用户没有点，说明用户不感兴趣；而冷门物品，用户压根就没见到过，根本谈不上是否感兴趣。

一个看似简单的办法，背后却是对用户及数据逻辑深刻的洞察，这才是机器学习最有魅力的地方。

只有正样本和未标签数据的机器学习怎么做？的其他答案点击这里

1

相关话题

  在文本分类任务中，有哪些论文中很少提及却对性能有重要影响的tricks？
  数据挖掘与数据分析的主要区别是什么？
  体育比赛中，有哪些「列数据就是吹」的例子？
  为什么像会计等非it行业处理数据要用excel而不是sql？
  CPython有GIL是因为当年设计CPython的人偷懒吗？
  有什么算法能对一个长短不一的时间序列进行分类预测?
  主动学习(Active learning)算法的原理是什么，有哪些比较具体的应用？
  MATLAB在逐渐被Python淘汰吗？
  机器学习为生物学和医学研究带来了哪些改变？能解决哪些医学难题？
  如何看待亚马逊的无人超市产品 Amazon Go?

前一个讨论

物理学家通过计算得到的结果是否有意义？

下一个讨论

为什么没有围绕行星的卫星转动的星体？

相关的话题

  如何入门 Python 爬虫？
  银行业为什么喜欢用 sas 而不是 python？
  如何用机器学习判断《溪岸图》是否董源真迹？
  研究推荐系统要对NLP很了解吗？
  如何看待物理学家 Lee Phillips 对 Python 的批评?
  有哪些比较好的机器学习、数据挖掘、计算机视觉的订阅号、微博或者是论坛？
  开源社区很多开源框架都有Rails的影子，为什么不用Rails呢？
  为什么deep lab v3起，输出不再接 DenseCRF了？
  R 中的哪些命令或者包让你相见恨晚？
  人工智能在生活中的应用都有哪些？
  怎么自学python，大概要多久？
  EM算法存在的意义是什么？
  C、C++、Java、JavaScript、PHP、Python、Ruby 这些语言分别主要用来开发什么？
  用生成模型做数据增强data augmentation时，如何从合成数据中筛选出质量较好的样本？
  搞机器学习的生环化材是天坑吗？
  请问应该怎样去学习图像识别和深度学习？
  如何评价马毅教授的 NeurIPS 2020 中稿文章 MCR2 及自称弄明白深度学习了？
  如何评价 UCLA 朱松纯教授近日访谈中对深度学习的批评？
  当前（2020年）机器学习中有哪些研究方向特别的坑？
  word2vec有什么应用？
  最近几年针对女性的性犯罪是否越来越多？社会氛围是否越来越不友好？
  超越人类的人工智能 (AI) 是否能够实现？
  如何系统学习机器学习？
  离职了你会跟领导说什么？
  能识别情绪的机器人可以算做有情感的机器人吗？
  化工数据分析没有未来吗？
  最近几年针对女性的性犯罪是否越来越多？社会氛围是否越来越不友好？
  大数据最核心的价值是什么？
  机器学习在Web攻击方向有什么建树吗？
  python setup.py data_files 设置要拷贝的文件，不能拷贝到安装目录下。要怎样解决？

© 2025-06-15 - tinynew.org. All Rights Reserved.
© 2025-06-15 - tinynew.org. 保留所有权利