BIRCH

是一种针对大规模数据集的聚类算法
只需单遍扫描数据集就能进行聚类

聚类特征

聚类特征（CF，Clustering Feature）

是BIRCH增量聚类算法的核心
使用CF概括描述各簇的信息

设某簇中有$N$个$p$维数据点$\lbrace \mathbf{x}_i\rbrace \quad (i=1,\cdots,N)$，则该簇的**聚类特征（CF）**定义为三元组：
$$CF=(N, LS, SS)$$
其中：

$N$：簇中点的数目
矢量$LS$：各点的线性求和，即
$$\sum_{i=1}^N \mathbf{x}i=\left( \sum{i=1}^N x_{i1},\cdots, \sum_{i=1}^N x_{ip} \right)^T$$
标量$SS$：各点的平方和，即
$$\sum_{i=1}^{N\mathbf{x}_i}T\mathbf{x}i=\sum{i=1}^N\sum_{j=1}px_{ij}^2$$

聚类特征（CF）具有可加性。

若有$CF_1=(n_1,LS_1,SS_1)$, $CF_2=(n_2,LS_2,SS_2)$，

则$CF_1+CF_2=(n_1+n_2,LS_1+LS_2, SS_1+SS_2)$表示将两个不相交的簇合并成一个大簇的聚类特征。

聚类特征本质上是给定簇的统计汇总，可以有效地对数据进行压缩。

基于聚类特征，可以推导出簇的许多统计量和距离度量。

设某簇中有$N$个$p$维数据点$\lbrace\mathbf{x}_i\rbrace \quad (i=1,\cdots,N)$，则该簇的

簇质心
$$\mathbf{x}0=\frac{1}{N}\sum{i=1}^N\mathbf{x}_i=\frac{LS}{N}$$
簇半径
$$R=\sqrt{\frac{1}{N}\sum_{i=1}^N\left(\mathbf{x}_i-\mathbf{x}_0 \right)^2}=\sqrt{\frac{N\cdot SS-LS^2}{N2} }$$
簇直径
$$D=\sqrt{\frac{\sum_{i=1}^N\sum_{j=1}N\left(\mathbf{x}_i-\mathbf{x}_j \right)^2}{N(N-1)} }=\sqrt{\frac{2N\cdot SS-2LS^2}{N(N-1)} }$$

其中

R 是簇中的点到质心的平均距离
D 是簇中两两数据点的平均距离
R和D都反映了簇内紧实度

不同簇之间的距离度量通常用曼哈顿距离：
$$D_0=\sqrt{\frac{\sum_{i=1}^{{N_1}\sum_{j=N_1+1}}{N_1+N_2}\left(\mathbf{x}_i-\mathbf{x}_j \right)^2}{N_1N_2} }=\sqrt{\frac{SS_1}{N_1}+\frac{SS_2}{N_2}-2\cdot \frac{LS_1}{N_1}\cdot\frac{LS_2}{N_2} }$$

聚类特征树

聚类特征树（CF-tree，Clustering Feature Tree）存储了层次聚类的簇的特征，这棵树的每一个节点是由若干个聚类特征组成的。

每个节点（包括叶子节点）都有若干个CF
内部节点的CF有指向孩子节点的指针
所有叶子节点用一个双向链表连接起来

聚类特征树有三个参数：

枝平衡因子$\beta$
叶平衡因子$\lambda$
空间阈值$\tau$

未完待续

Skye

Machine Learning | BIRCH

BIRCH

聚类特征

聚类特征树

参考资料