聚类分析按照样本点之间的亲疏远近程度进行分类。为了使类分得合理,必须描述样本之间的亲疏远近程度。刻画聚类样本点之间的亲疏远近程度主要有以下两类函数:
(1)相似系数函数:两个样本点愈相似,则相似系数值愈接近1;样本点愈不相似,则相似系数值愈 接近0。这样就可以使用相似系数值来刻画样本点性质的相似性。
(2)距离函数:可以把每个样本点看作高维空间中的一个点,进而使用某种距离来表示样本点之间的相似性,距离较近的样本点性质较相似,距离较远的样本点则差异较大。
对象间的相似性是聚类的核心。对象的聚类用距离或相似系数来度量样本之间的相似性,相似系数体现对象间的相似程度,反映样本之间相对于某些属性的相似程度。本文对常用的相似性度量作一个总结。
常用以下的方法确定相似系数的度量:
1)数量积法
2)夹角余弦法
3)相关系数法
4)最大最小法
5)算术平均最小法
6)几何平均最小法
7)绝对值指数法
8)指数相似系数法
9)绝对值倒数法
10)绝对值减数法
11)非参数法
12)贴近度法
常用以下方法进行距离度量:
1)欧氏距离
2)曼哈顿距离
3)切比雪夫距离
4)闵可夫斯基距离
5)标准化欧氏距离
6)马氏距离
7)夹角余弦
8)汉明距离
9)杰卡德距离 & 杰卡德相似系数
10)相关系数 & 相关距离
11)信息熵
来源参考:
史忠植,《高级人工智能第三版》,科学出版社,P295-298
http://www.cnblogs.com/heaad/archive/2011/03/08/1977733.html
http://blog.jobbole.com/84876/
http://blog.csdn.net/pi9nc/article/details/9068359
http://blog.csdn.net/ningyaliuhebei/article/details/40716275