首页

K-means聚类算法中的K如何确定？第1页

1

huangzhe 网友的相关建议:

常用的方法是elbow method（手肘法则）^[1]。选不同的k值，例如从1-9，然后画出每一个k值的“距离之和”和k的关系图。

左轴可以是distortion

或者Inertia

distortion和inertia挺接近，都是衡量每个数据和最近中心点的距离之和，只是计算距离的方式不一样而已。

为什么要选个elbow点呢？毕竟在官方文档^[2]中，是这么说的

The K-means algorithm aims to choose centroids that minimise the inertia, or within-cluster sum-of-squares criterion:

难道不是error越小越好吗？

理论上是，但你想想什么时候error最小？就是n个数据点分成n个簇。这样做clustering失去了意义。

有时候会出现曲线转折不明显的情况，如下：

这时候除了用放大镜找Elbow，也可以用一些容易计算的方法来找最佳K值。

在文章《Understanding of Internal Clustering Validation Measures》^[3]，介绍了Clustering的11种选择最佳值的方法。例如下图方法4-11的optimal value不是min就是max，不用再选elbow。

参考

^Elbow Method for optimal value of k in KMeans https://www.geeksforgeeks.org/elbow-method-for-optimal-value-of-k-in-kmeans/
^2.3. Clustering¶ https://scikit-learn.org/stable/modules/clustering.html
^Understanding of Internal Clustering Validation Measures http://datamining.rutgers.edu/publication/internalmeasures.pdf

K-means聚类算法中的K如何确定？的其他答案点击这里

1

相关话题

  普通FPGA工程师怎样向人工智能靠拢？
  魔鬼如何在最短时间内抓住天使？
  算法岗位真的需要顶会才能入场吗？
  TensorFlow 有哪些令人难以接受的地方？
  神经网络，人工智能这块怎么入门？
  常用的机器学习算法比较？
  语音识别中，声学模型与语言模型扮演什么角色？或者说是怎么通过两个模型进行语音识别的?
  机器全面代替人工劳动力的那一天，你能如何生存下去？
  用于数据挖掘的聚类算法有哪些，各有何优势？
  计算机视觉是否已经进入瓶颈期？

前一个讨论

机器学习小白来提问：关于联邦学习FedAVG和FedSGD的问题？

下一个讨论

写CUDA到底难在哪？

相关的话题

  已有大量编程基础，如何速成python用于学习机器学习？
  有哪些可以自学机器学习、深度学习、人工智能的网站？
  机器学习，数据挖掘在研究生阶段大概要学些什么？
  机器学习中使用正则化来防止过拟合是什么原理？
  怎样计算两个服从高斯分布的向量乘积的期望？
  如何评价 On Unifying Deep Generative Models 这篇 paper?
  除了深度学习，机器学习领域近年来还有什么热点吗？
  推荐系统应该如何保障推荐的多样性？
  机器学习系统MLSys中有哪些比较有前途的研究方向？
  广告算法工程师的核心竞争力是什么？
  研一，在学机器学习和深度学习，为什么感觉越学越不会，怎么解决这个问题？
  BERT模型可以使用无监督的方法做文本相似度任务吗？
  god bless us 为什么百度翻译是辛巴？
  2020到2021年小样本学习取得重大进展了吗？
  DeepMind 团队中有哪些厉害的人物和技术积累？
  算法研究属于数学专业还是计算机专业？
  有哪些你看了以后大呼过瘾的数据分析书？
  自监督学习（Self-supervised Learning）有什么比较新的思路？
  如何证明数据增强（Data Augmentation）有效性？
  使用强化学习解决实际问题时常常避不开环境模拟或者使用离线强化学习算法，两者分别有什么优缺点？
  2019 秋招的 AI 岗位竞争激烈吗？
  请问一下，机器学习领域的联邦学习技术，目前看到最多的是微众银行，国内还有哪些顶级专家及机构和大学？
  如何用机器学习判断《溪岸图》是否董源真迹？
  如何看待斯坦福博士生2prime陆一平关于新冠起源的一系列言论？
  Python 如何画出漂亮的地图？
  如何看待多所 985 大学开设人工智能专业？
  为何以范剑青老师的 Sure Independence Screening 为代表的筛选法没有流行呢？
  在你做推荐系统的过程中都遇到过什么坑？
  超越人类的人工智能 (AI) 是否能够实现？
  为什么神经网络具有泛化能力？

© 2025-06-06 - tinynew.org. All Rights Reserved.
© 2025-06-06 - tinynew.org. 保留所有权利