0%

Machine Learning | DBSCAN

Density-Based Spatial Clustering of Applications with Noise

DBSCAN
具有噪声的基于密度的聚类方法

DBSCAN

DBSCAN是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,将簇定义为“密度相连的点的最大集合”。

Martin Ester等人于1996年提出。
原文:A density-based algorithm for discovering clusters in large spatial databases with noise.
(截至2020年01月9日,被引用次数已达16602次)

  • 聚类的时候不需要事先指定簇的个数
  • 最终的簇的个数不确定

参数

DBSCAN算法首先要确定两个参数:

  1. 半径(Eps或epsilon)
    在一个点周围邻近区域的半径。若两点之间的距离小于或等于该值,则这些点被认为是相邻的。如果选择的eps值太小,则很大一部分数据不会聚集,将被视为异常点;如果选择的eps太大,则群集会被合并,会造成大多数对象处于同一群集中。因此,应该根据数据集的距离来选择eps;一般,eps的取值尽量取小。
  2. MinPts
    邻近区域内至少包含点的个数。对于具有噪声的数据集,应考虑较大的MinPts;MinPts的最小值必须为3。数据集越大,对应选择的MinPts应越大。

参考资料

Thank you for your approval.

欢迎关注我的其它发布渠道