首页

只有正样本和未标签数据的机器学习怎么做？第1页

1

huo-hua-de-41 网友的相关建议:

这个问题超有趣，推荐系统里有类似的场景，即只有用户点击浏览购买的正样本，却没有显性负样本，这样该如何学习呢？

我们假设下面几种方案：

对于一个用户，用他所有没有过行为的数据作为负样本
对于一个用户，从他没有过行为的负样本中均匀采样出一些作为负样本
对于一个用户，从他没有过行为的负样本中均匀采样出一些作为负样本，且保证正负样本比为1：1
对于一个用户，从他没有过行为的负样本中均匀采样出一些作为负样本，但采样时，偏重采样那些热门却没有点击的样本。

对于第一种方法，缺点太明显，在实际样本中，负样本数量远远超过正样本，正负样本比例太悬殊，效果最差。

而第三种方法好于第二种，因为第三种样本比例比较平衡。

最有趣的莫过于第四种方案了，在2011年举办的KDD cup的Yahoo！music推荐比赛中，大家发现选取热门却没有行为的样本进行负采样效果最好！

因为热门物品大概率曝光过，而用户没有点，说明用户不感兴趣；而冷门物品，用户压根就没见到过，根本谈不上是否感兴趣。

一个看似简单的办法，背后却是对用户及数据逻辑深刻的洞察，这才是机器学习最有魅力的地方。

只有正样本和未标签数据的机器学习怎么做？的其他答案点击这里

1

相关话题

  为什么Python不能出一个类似V8的编译器?
  参加kaggle竞赛是怎样一种体验？
  已有大量编程基础，如何速成python用于学习机器学习？
  国内 top2 高校研一在读，为什么感觉深度学习越学越懵?
  有哪些网站用爬虫爬取能得到很有价值的数据？
  Python中除了matplotlib外还有哪些数据可视化的库？
  Python 在大部分领域都能胜任，为什么很多企业转向了 Golang?
  统计模型和概率模型的区别是什么呢？
  正负样本极不平衡的问题？
  god bless us 为什么百度翻译是辛巴？

前一个讨论

物理学家通过计算得到的结果是否有意义？

下一个讨论

为什么没有围绕行星的卫星转动的星体？

相关的话题

  各个编程语言都有哪些「亮点」？
  在文本分类任务中，有哪些论文中很少提及却对性能有重要影响的tricks？
  在公司里，数据分析师是如何帮助公司创收的？
  如何分析一个城市的房价走势，需要哪些数据？
  深度学习工作站中使用AMD的CPU会有问题吗？
  零基础如何学爬虫技术？
  时间序列数据上可以抽取哪些频域特征？
  请问有没有基于实例的迁移学习的数据？
  计算机视觉是否已经进入瓶颈期？
  体育比赛中，有哪些「列数据就是吹」的例子？
  计算机视觉是否已经进入瓶颈期？
  'module' object has no attribute 'HTTPSConnection' 问题？
  如何看待李国杰院士在科学网发文称，国内 AI 研究「顶不了天、落不了地」，该想想了？
  Python在数据科学领域能否完全取代R？
  本科数学，目前在读计算机研一，毕业的时候想要应聘数据挖掘工程师，看了对数据挖掘工程师的招聘要求，感觉太宽泛了，希望能具体说一下现在应该准备哪些知识（算法？编程语言？其他？），谢谢！
  c4.5为什么使用信息增益比来选择特征？
  年轻人如何避免中年危机？
  如何看待Kaggle最新比赛Zillow禁止中国居民参加第二轮？
  python的numpy向量化语句为什么会比for快？
  初中文凭可以学习编程吗？如果可以，是去靠谱的培训机构还是自学？学习方向都有哪些？就业环境如何？
  国内目前的量化交易是否很少涉及到机器学习？
  如何看待多所 985 大学开设人工智能专业？
  如何正确理解小概率事件，以及概率和哲学的关系？
  学习机器学习有哪些好工具推荐？
  分类机器学习中，某一标签占比太大（标签稀疏），如何学习？
  为什么有人说 Python 的多线程是鸡肋呢？
  ICML 2018 有哪些值得关注的亮点?
  GBDT算法的细节问题？
  有哪些你看了以后大呼过瘾的数据分析书？
  数据挖掘、机器学习、自然语言处理这三者是什么关系？这几个怎么入门啊？

© 2025-06-14 - tinynew.org. All Rights Reserved.
© 2025-06-14 - tinynew.org. 保留所有权利