聚类研究中的常见相似性度量[才子佳人博客，我的故事我讲述]

聚类研究中的常见相似性度量

来源：www.cnblogs.com 编辑：xjh 2016-04-29

聚类分析按照样本点之间的亲疏远近程度进行分类。为了使类分得合理，必须描述样本之间的亲疏远近程度。刻画聚类样本点之间的亲疏远近程度主要有以下两类函数：

（1）相似系数函数：两个样本点愈相似，则相似系数值愈接近1；样本点愈不相似，则相似系数值愈接近0。这样就可以使用相似系数值来刻画样本点性质的相似性。

（2）距离函数：可以把每个样本点看作高维空间中的一个点，进而使用某种距离来表示样本点之间的相似性，距离较近的样本点性质较相似，距离较远的样本点则差异较大。

对象间的相似性是聚类的核心。对象的聚类用距离或相似系数来度量样本之间的相似性，相似系数体现对象间的相似程度，反映样本之间相对于某些属性的相似程度。本文对常用的相似性度量作一个总结。

常用以下的方法确定相似系数的度量：

1）数量积法

2）夹角余弦法

3）相关系数法

4）最大最小法

5）算术平均最小法

6）几何平均最小法

7）绝对值指数法

8）指数相似系数法

9）绝对值倒数法

10）绝对值减数法

11）非参数法

12）贴近度法

常用以下方法进行距离度量：

1）欧氏距离

2）曼哈顿距离

3）切比雪夫距离

4）闵可夫斯基距离

5）标准化欧氏距离

6）马氏距离

7）夹角余弦

8）汉明距离

9）杰卡德距离 & 杰卡德相似系数

10）相关系数 & 相关距离

11）信息熵

分类:网络日志| 查看评论