百科问答小站 logo
百科问答小站 font logo



K-means聚类算法中的K如何确定? 第1页

  

user avatar   huangzhe 网友的相关建议: 
      

常用的方法是elbow method(手肘法则)[1]。选不同的k值,例如从1-9,然后画出每一个k值的“距离之和”和k的关系图。

左轴可以是distortion

或者Inertia

distortion和inertia挺接近,都是衡量每个数据和最近中心点的距离之和,只是计算距离的方式不一样而已。

为什么要选个elbow点呢?毕竟在官方文档[2]中,是这么说的

The K-means algorithm aims to choose centroids that minimise the inertia, or within-cluster sum-of-squares criterion:

难道不是error越小越好吗?

理论上是,但你想想什么时候error最小?就是n个数据点分成n个簇。这样做clustering失去了意义。


有时候会出现曲线转折不明显的情况,如下:

这时候除了用放大镜找Elbow,也可以用一些容易计算的方法来找最佳K值。

在文章《Understanding of Internal Clustering Validation Measures》[3],介绍了Clustering的11种选择最佳值的方法。例如下图方法4-11的optimal value不是min就是max,不用再选elbow。

参考

  1. ^Elbow Method for optimal value of k in KMeans https://www.geeksforgeeks.org/elbow-method-for-optimal-value-of-k-in-kmeans/
  2. ^2.3. Clustering¶ https://scikit-learn.org/stable/modules/clustering.html
  3. ^Understanding of Internal Clustering Validation Measures http://datamining.rutgers.edu/publication/internalmeasures.pdf



  

相关话题

  BERT模型可以使用无监督的方法做文本相似度任务吗? 
  有哪些关于机器学习的真相还鲜为人知? 
  为何以范剑青老师的 Sure Independence Screening 为代表的筛选法没有流行呢? 
  如何看待学霸君的高考机器人 Aidam 高考全国文科数学卷考了 134 分? 
  本科数学,目前在读计算机研一,毕业的时候想要应聘数据挖掘工程师,看了对数据挖掘工程师的招聘要求,感觉太宽泛了,希望能具体说一下现在应该准备哪些知识(算法?编程语言?其他?),谢谢! 
  为什么现在的CNN模型都是在GoogleNet、VGGNet或者AlexNet上调整的? 
  如何评价李飞飞和李佳加盟谷歌? 
  机器学习能否用于综合评价?具体怎么操作? 
  如何看待谷歌研究人员提出的卷积正则化方法「DropBlock」? 
  机器学习的理论方向 PhD 是否真的会接触那么多现代数学(黎曼几何、代数拓扑之类)? 

前一个讨论
机器学习小白来提问:关于联邦学习FedAVG和FedSGD的问题?
下一个讨论
写CUDA到底难在哪?





© 2025-03-04 - tinynew.org. All Rights Reserved.
© 2025-03-04 - tinynew.org. 保留所有权利