才子佳人博客

我的故事我讲述

分类与聚类,监督学习与无监督学习
 
来源:xjh  编辑:xjh  2020-05-09

1 分类和聚类

•Classification (分类):对于一个 classifier ,通常需要你告诉它“这个东西被分为某某类”,理想情况下,一个 classifier 会从它得到的训练数据中进行“学习”,从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做 supervised learning (监督学习)。

•Clustering(聚类),简单地说就是把相似的东西分到一组,聚类的时候,我们事先并不知道这个东西属于哪一类,我们需要实现的目标只是把相似的东西聚到一起。因此,一个聚类算法通常只需要知道如何计算对象(事物)之间的相似度。因此 clustering 通常并不需要使用训练数据进行学习,这在 Machine Learning 中被称作 unsupervised learning (无监督学习).

2 常见的分类与聚类算法

所谓分类,简单来说,就是根据对象的特征或属性,划分到已有的类别中。常用的分类算法包括:决策树分类法,朴素的贝叶斯分类算法(native Bayesian classifier)、基于支持向量机(SVM)的分类器,神经网络法,k-最近邻法(k-nearest neighbor,kNN),模糊分类法等等。

分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。

而K均值(K-means clustering)聚类则是最典型的聚类算法,当然,除此之外,还有很多诸如属于划分法K-MEDOIDS算法、CLARANS算法;属于层次法的BIRCH算法、CURE算法、CHAMELEON算法等;基于密度的方法:DBSCAN算法、OPTICS算法、DENCLUE算法等;基于网格的方法:STING算法、CLIQUE算法、WAVE-CLUSTER算法;基于模型的方法等。

3 监督学习与无监督学习

机器学习发展到现在,一般划分为监督学习(supervised learning),半监督学习(semi-supervised learning)以及无监督学习(unsupervised learning)三类。例如,在NLP词义消岐中,分为监督的消岐方法和无监督的消岐方法。在有监督的消岐方法中,训练数据是已知的,即每个词的语义分类是被标注了的;而在无监督的消岐方法中,训练数据是未经标注的。

上面所介绍的常见的分类算法属于监督学习,聚类则属于无监督学习,反过来说,监督学习属于分类算法则不准确,因为监督学习只是说我们给样本sample同时打上了标签(label),然后同时利用样本和标签进行相应的学习任务,而不是仅仅局限于分类任务。常见的其他监督问题,比如相似性学习,特征学习等等也是监督的,但是不是分类。

再举个例子,正如人们通过已知病例,来学习诊断技术那样,计算机要通过学习才能具有识别各种事物和现象的能力。用来进行学习的材料就是与被识别对象属于同类的有限数量样本。监督学习中在给予计算机学习样本的同时,还告诉计算各个样本所属的类别。若所给的学习样本不带有类别信息,就是无监督学习(浅显点说:同样是学习训练,监督学习中,给的样例比如是已经标注了如心脏病的、肝炎的;而无监督学习中,就是给你一大堆的样例,没有标明是何种病例的)。

在《支持向量机导论》一书中,监督学习的定义是:当样例是以输入/输出对给出时,称为监督学习,有输入/输出函数关系的样例称为训练数据。而在无监督学习中,其数据不包含输出值。

简言之,有监督学习(supervised learning)不仅把训练数据丢给计算机,而且还把分类的结果(数据具有的标签)也一并丢给计算机分析。无监督学习(unsupervised learning)只给计算机训练数据,不给结果(标签),因此计算机无法准确地知道哪些数据具有哪些标签,只能凭借强大的计算能力分析数据的特征,从而得到一定的成果,通常是得到一些集合,集合内的数据在某些特征上相同或相似。


分类:网络日志| 查看评论
相关文章
文章点击排行
本年度文章点击排行
发表评论:
  • 昵称: *
  • 邮箱: *
  • 网址:
  • 评论:(最多100字)
  • 验证码: