百科问答小站 logo
百科问答小站 font logo



机器学习中非均衡数据集的处理方法? 第1页

  

user avatar   huang-xiao-ye-8 网友的相关建议: 
      

做毕设碰到过类似的问题,也算小小研究过,就来不耻回答一下。。

推荐看一下Haibo He, Edwardo A. Garcia的Learning from Imbalanced Data这篇paper,写的很系统也很清晰。

主要包括四大类方法,1Sampling 2Cost Sensitive Methods 3Kernal-Based Methods and Active Learning Methods 4One-Class Learning or Novelty Detection Methods。

Sampling大类说到底就是两种可能。第一种是把多的那个组变少,第二种是把少的那个组变多,以达到平衡的结果。一般比较少用第一种,因为那样容易丢失重要信息。对于第二种,又有很多方法,最简单的是oversampling,由于其局限性,又有很多根据已有的数据生成新数据的方法,比如各种变体的synthetic sampling。

第二种思路是基于把多数组猜成少数组和把少数组猜成多数组的cost是不同的这个事实,来修正数据分布(个人理解可以当成采到样的概率)的方法。

另外,kernal类的模型,还可以通过修改核函数来偏移hyperplane,来抵消不平衡数据造成的hyperplane的偏移。

最后一大类没有看过相关paper,不了解。。




  

相关话题

  细思极恐,大数据已经侵入脑中了吗?!? 
  人脸识别哪家强? 
  2017年1月18日Facebook发行的PyTorch相比TensorFlow、MXNet有何优势? 
  如何看待数据显示腾讯胜诉率深圳 95%、北京 54%,该统计是否科学?真的存在「南山必胜客」一说吗? 
  最数学的计算机科学方向有哪些? 
  起点中文网采用人工+大数据派发推荐位,这种模式将对网站以及网文行业产生哪些影响? 
  男子不想被小区门禁人脸识别,两年来只能蹭脸回家,物业应该提供其他门禁方式吗?人脸识别如何保证信息安全? 
  为什么很多公司都开始去 Oracle 而使用 MySQL? 
  如何通俗的解释交叉熵与相对熵? 
  2021年深度学习哪些方向比较新颖,处于上升期或者朝阳阶段,没那么饱和,比较有研究潜力? 

前一个讨论
为什么金庸、梁羽生、古龙之后再无武侠小说作家了呢?
下一个讨论
既然蛋蛋(睾丸)对动物的繁殖至关重要,为了降温直接吊在体外可以理解,但为什么不进化出有保护作用的蛋壳?





© 2025-05-07 - tinynew.org. All Rights Reserved.
© 2025-05-07 - tinynew.org. 保留所有权利