###SmallArticleTitle###
来源:xjh; 编辑:xjh; 2018-05-16
1、基本思想:
我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系——以样品间距离衡量)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,直到把所有的样品(或指标)聚合完毕,这就是聚类的基本思想。简言之,就是将未知的数据按相似程度分类到不同的类或簇中。
在聚类分析中,通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。Q型聚类分析是对样本进行分类处理,R型聚类分析是对变量进行分类处理。
2、主要步骤:
1)数据预处理。完成清洗数据(将孤立点移除)、特征选择和特征抽取。特征选择:从已知特征集合中选择最具代表性的子集,去除与任务无关或冗余的特征,新的特征集可以像原来一样正确区分每个对象。
2)确定相似度定义方法。为衡量数据点之间的相似度需定义一个距离函数或相似系数。常见的距离有 : ① 绝对值距离 ② 欧氏距离 ③ 明科夫斯基距离 ④ 切比雪夫距离等。
3)根据相似度定义将对象划分到不同的类或簇中。将数据集X={X1,X2,....,Xn}划分为K个类(组)C1,C2,..Ck,其中Ci⊆X 且 ∪Ci=X,Ci∩Cj=∅,Ci≠∅。
4)评估结果。由聚类准则判断分类(组)是否合理,若不合理则修改分类(组),反复迭代 3)步骤,直到合理为止。通过反复迭代修改分类(组),使得每一次改进之后的分类(组)方案较前一次好(标准就是同一分组的记录越近越好,而不同分组的记录越远越好)。
在第二步中如何定义相似度函数非常重要,在第四步中如何定义评估函数(聚类准则)非常重要。