百科问答小站 logo
百科问答小站 font logo



如何判断两个Deep Learning 数据集的数据分布是否一致? 第1页

  

user avatar   jindongwang 网友的相关建议: 
      

很遗憾,分布距离如你的身高般永远无法精确度量。现有的方法也均是采用特定假设下能给出的解决方案,并不存在一种统一的、精确的分布度量方式。

常用的可以尝试的方法:

  • MMD是一种常用的数据分布距离度量方式。你完全可以用MMD得到数据集A和B的MMD距离,以此作为二者的数据分布距离D1。
  • KL divergence也是很常用的计算方式。利用KL divergence,得到分布距离D2。
  • 基于domain adaptation理论构建一个线性分类器去分两个数据集,也就是A-distance,得到距离D3。
  • 其他任何已有的pair-wise距离计算,如欧氏距离、余弦相似度等,都能得到其他的距离,我们用D4表示。

首先,D1~D4这些数值肯定是不相等的;其次,它们没有可比性;再次,并没有一个距离和传说中的“groundtruth”接近。。。

在实际使用时,根据自己的问题选择适当的分布度量差异、言之成理即可。当然,你也可以自己开发新的分布差异度量方法。




  

相关话题

  在集成电路设计领域(数字,模拟),人工智能有无可能取代人类? 
  除了深度学习,机器学习领域近年来还有什么热点吗? 
  如何看待最近一段时间旷视科技Face++、阿里、小米、京东、科大讯飞和地平线等相继在南京建立研发中心? 
  如何看待NLP领域最近比较火的prompt,能否借鉴到CV领域? 
  nlp有哪些值得完整实现一遍的算法? 
  学生网络用知识蒸馏损失去逼近教师网络,如何提高学生网络的准确率? 
  实验室一块GPU都没有怎么做深度学习? 
  2021年,作为算法工程师的你们会在CV业务落地上用Transformer吗? 
  如何看待Yoav Goldberg 怒怼来自MILA的GAN for NLG的paper? 
  在做算法工程师的道路上,你掌握了什么概念或技术使你感觉自我提升突飞猛进? 

前一个讨论
人是如何做黑盒优化的?
下一个讨论
如何看待5G、AI等新技术可能带来更复杂的网络安全威胁?我们的安全是不是越来越难保障?





© 2025-04-24 - tinynew.org. All Rights Reserved.
© 2025-04-24 - tinynew.org. 保留所有权利