问题 改进k均值聚类


我关于计算机视觉的讲义提到了 如果我们知道簇的标准偏差,则可以提高k均值聚类算法的性能。怎么会这样?

我的想法是,我们可以使用标准差来首先通过基于直方图的分割得出更好的初始估计。你怎么看?谢谢你的帮助!


6753
2018-01-10 14:53


起源



答案:


你的讲师可能有 2002年Veenman等人的论文 心里。基本思想是您设置每个群集中允许的最大差异。您从与数据点一样多的集群开始,然后逐步“发展”集群

  • 如果生成的聚类的方差低于阈值,则合并相邻聚类
  • 如果群集的方差高于阈值,则隔离“远”的元素
  • 如果它减少了平方误差的总和,则在相邻簇之间移动一些元素

(这种演变充当全局优化程序,并防止初始分配集群的不良后果意味着你有k-means)

总而言之,如果您知道方差,您就知道了群集的多样性,因此更容易实现。检测异常值(通常应将其置于不同的簇中)。


14
2018-01-10 15:31



优秀的答案!最后一个问题 - 异常值通常会变成他们自己的新集群,对吧?顺便说一句,哈哈@ ang mo--我以前去过新加坡,我知道什么是“ang mo”的意思! :) - Dhruv Gairola
是的:异常值将使用隔离运算符放在一个单独的集群中(或者它们首先不会合并) - ang mo
我印象非常深刻! - Dhruv Gairola


答案:


你的讲师可能有 2002年Veenman等人的论文 心里。基本思想是您设置每个群集中允许的最大差异。您从与数据点一样多的集群开始,然后逐步“发展”集群

  • 如果生成的聚类的方差低于阈值,则合并相邻聚类
  • 如果群集的方差高于阈值,则隔离“远”的元素
  • 如果它减少了平方误差的总和,则在相邻簇之间移动一些元素

(这种演变充当全局优化程序,并防止初始分配集群的不良后果意味着你有k-means)

总而言之,如果您知道方差,您就知道了群集的多样性,因此更容易实现。检测异常值(通常应将其置于不同的簇中)。


14
2018-01-10 15:31



优秀的答案!最后一个问题 - 异常值通常会变成他们自己的新集群,对吧?顺便说一句,哈哈@ ang mo--我以前去过新加坡,我知道什么是“ang mo”的意思! :) - Dhruv Gairola
是的:异常值将使用隔离运算符放在一个单独的集群中(或者它们首先不会合并) - ang mo
我印象非常深刻! - Dhruv Gairola