才子佳人博客

我的故事我讲述

聚类研究中的常见相似性度量
 
来源:www.cnblogs.com  编辑:xjh  2016-04-29

聚类分析按照样本点之间的亲疏远近程度进行分类。为了使类分得合理,必须描述样本之间的亲疏远近程度。刻画聚类样本点之间的亲疏远近程度主要有以下两类函数:

(1)相似系数函数:两个样本点愈相似,则相似系数值愈接近1;样本点愈不相似,则相似系数值愈 接近0。这样就可以使用相似系数值来刻画样本点性质的相似性。

(2)距离函数:可以把每个样本点看作高维空间中的一个点,进而使用某种距离来表示样本点之间的相似性,距离较近的样本点性质较相似,距离较远的样本点则差异较大。

对象间的相似性是聚类的核心。对象的聚类用距离或相似系数来度量样本之间的相似性,相似系数体现对象间的相似程度,反映样本之间相对于某些属性的相似程度。本文对常用的相似性度量作一个总结。

常用以下的方法确定相似系数的度量:

1)数量积法

2)夹角余弦法

3)相关系数法

4)最大最小法

5)算术平均最小法

6)几何平均最小法

7)绝对值指数法

8)指数相似系数法

9)绝对值倒数法

10)绝对值减数法

11)非参数法

12)贴近度法

常用以下方法进行距离度量:

1)欧氏距离

2)曼哈顿距离

3)切比雪夫距离

4)闵可夫斯基距离

5)标准化欧氏距离

6)马氏距离

7)夹角余弦

8)汉明距离

9)杰卡德距离 & 杰卡德相似系数

10)相关系数 & 相关距离

11)信息熵

来源参考:
史忠植,《高级人工智能第三版》,科学出版社,P295-298
http://www.cnblogs.com/heaad/archive/2011/03/08/1977733.html
http://blog.jobbole.com/84876/
http://blog.csdn.net/pi9nc/article/details/9068359
http://blog.csdn.net/ningyaliuhebei/article/details/40716275


分类:网络日志| 查看评论
相关文章
文章点击排行
本年度文章点击排行
发表评论:
  • 昵称: *
  • 邮箱: *
  • 网址:
  • 评论:(最多100字)
  • 验证码: