首页

机器学习中非均衡数据集的处理方法？第1页

1

huang-xiao-ye-8 网友的相关建议:

做毕设碰到过类似的问题，也算小小研究过，就来不耻回答一下。。

推荐看一下Haibo He, Edwardo A. Garcia的Learning from Imbalanced Data这篇paper，写的很系统也很清晰。

主要包括四大类方法，1Sampling 2Cost Sensitive Methods 3Kernal-Based Methods and Active Learning Methods 4One-Class Learning or Novelty Detection Methods。

Sampling大类说到底就是两种可能。第一种是把多的那个组变少，第二种是把少的那个组变多，以达到平衡的结果。一般比较少用第一种，因为那样容易丢失重要信息。对于第二种，又有很多方法，最简单的是oversampling，由于其局限性，又有很多根据已有的数据生成新数据的方法，比如各种变体的synthetic sampling。

第二种思路是基于把多数组猜成少数组和把少数组猜成多数组的cost是不同的这个事实，来修正数据分布(个人理解可以当成采到样的概率)的方法。

另外，kernal类的模型，还可以通过修改核函数来偏移hyperplane，来抵消不平衡数据造成的hyperplane的偏移。

最后一大类没有看过相关paper，不了解。。

机器学习中非均衡数据集的处理方法？的其他答案点击这里

1

相关话题

  计算机专业应该如何发展？
  推荐算法岗是否存在严重人才过剩?
  使用pytorch时，训练集数据太多达到上千万张，Dataloader加载很慢怎么办?
  GBDT算法的细节问题？
  如何比较Keras, TensorLayer, TFLearn ？
  有哪些不错的数据可视化网站？
  把一个视频文件后缀改成txt，得到是一串代码，那么反过来，有没有一种规律，编写一段代码然后生成视频?
  为什么各大数据中心全部建立在贵州？
  如何理解MCMC中的细致平稳条件？
  现在机器学习工业界和学术界的差别越来越大了吗？尽早实习和踏实科研各有什么利弊？

前一个讨论

为什么金庸、梁羽生、古龙之后再无武侠小说作家了呢？

下一个讨论

既然蛋蛋（睾丸）对动物的繁殖至关重要，为了降温直接吊在体外可以理解，但为什么不进化出有保护作用的蛋壳？

相关的话题

  在你做推荐系统的过程中都遇到过什么坑？
  如何评价马毅教授的 NeurIPS 2020 中稿文章 MCR2 及自称弄明白深度学习了？
  如何评价Hinton组的新工作SimCLR?
  HBase 和 Hive 的差别是什么，各自适用在什么场景中？
  计算机视觉是否已经进入瓶颈期？
  先进的图像识别怎样改变 AV 产业？
  如何理解 inductive learning 与 transductive learning?
  网络上一位长者提出了“完全不依靠人工神经网络与机器学习算法实现人工智能”的理论，大家怎么看？
  如何查询未来X年内全球预计的反恐投入规模，或者测算它的增幅、信息安全投入比例之类的数据？
  在统计学领域有哪些经典奠基性的论文？
  有哪些看了让你醍醐灌顶的书籍、论文、期刊，使你对如何做数据挖掘、特征工程、统计挖掘有了眉目？
  数据分析师（非数据挖掘，偏业务）是青春饭吗？
  为什么softmax很少会出现[0.5，0.5]？
  如何评价 NVIDIA 最新技术 5 秒训练 NERF？
  如何评价StarRocks开源？
  人工智能 CV 岗位是不是现在供严重大于需？
  大数据给我们的生活带来了哪些改变？
  如何快速成为数据分析师？
  主题模型(topic model)到底还有没有用，该怎么用？
  使用pytorch时，训练集数据太多达到上千万张，Dataloader加载很慢怎么办?
  你实践中学到的最重要的机器学习经验是什么？
  机器学习如何才能避免「只是调参数」？
  为什么在R语言里多用<-而不是=表示赋值？
  为什么机器学习解决网络安全问题总是失败?
  PRML为何是机器学习的经典书籍中的经典？
  为什么在实际的kaggle比赛中，GBDT和Random Forest效果非常好？
  2020 年最令你震惊的数据是什么？
  如何评价周志华教授新提出的 Deep Forest 模型，它会取代当前火热的深度学习 DNN 吗？
  机器学习以及贝叶斯统计里，关于近似intractable integral，大家都偏爱什么算法？
  NLP文本分类的本质是不是其实是找相似，对于要分类的句子，在训练集里找最相似的句子？

© 2025-05-30 - tinynew.org. All Rights Reserved.
© 2025-05-30 - tinynew.org. 保留所有权利