分类与聚类，监督学习与无监督学习 [才子佳人博客，我的故事我讲述]

分类与聚类，监督学习与无监督学习

来源：xjh 编辑：xjh 2020-05-09

1 分类和聚类

•Classification (分类)：对于一个 classifier ，通常需要你告诉它“这个东西被分为某某类”，理想情况下，一个 classifier 会从它得到的训练数据中进行“学习”，从而具备对未知数据进行分类的能力，这种提供训练数据的过程通常叫做 supervised learning (监督学习)。

•Clustering(聚类)，简单地说就是把相似的东西分到一组，聚类的时候，我们事先并不知道这个东西属于哪一类，我们需要实现的目标只是把相似的东西聚到一起。因此，一个聚类算法通常只需要知道如何计算对象（事物）之间的相似度。因此 clustering 通常并不需要使用训练数据进行学习，这在 Machine Learning 中被称作 unsupervised learning (无监督学习).

2 常见的分类与聚类算法

所谓分类，简单来说，就是根据对象的特征或属性，划分到已有的类别中。常用的分类算法包括：决策树分类法，朴素的贝叶斯分类算法(native Bayesian classifier)、基于支持向量机(SVM)的分类器，神经网络法，k-最近邻法(k-nearest neighbor，kNN)，模糊分类法等等。

分类作为一种监督学习方法，要求必须事先明确知道各个类别的信息，并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足，尤其是在处理海量数据的时候，如果通过预处理使得数据满足分类算法的要求，则代价非常大，这时候可以考虑使用聚类算法。

而K均值(K-means clustering)聚类则是最典型的聚类算法，当然，除此之外，还有很多诸如属于划分法K-MEDOIDS算法、CLARANS算法；属于层次法的BIRCH算法、CURE算法、CHAMELEON算法等；基于密度的方法：DBSCAN算法、OPTICS算法、DENCLUE算法等；基于网格的方法：STING算法、CLIQUE算法、WAVE-CLUSTER算法；基于模型的方法等。

3 监督学习与无监督学习

机器学习发展到现在，一般划分为监督学习(supervised learning)，半监督学习(semi-supervised learning)以及无监督学习(unsupervised learning)三类。例如，在NLP词义消岐中，分为监督的消岐方法和无监督的消岐方法。在有监督的消岐方法中，训练数据是已知的，即每个词的语义分类是被标注了的；而在无监督的消岐方法中，训练数据是未经标注的。

上面所介绍的常见的分类算法属于监督学习，聚类则属于无监督学习，反过来说，监督学习属于分类算法则不准确，因为监督学习只是说我们给样本sample同时打上了标签（label），然后同时利用样本和标签进行相应的学习任务，而不是仅仅局限于分类任务。常见的其他监督问题，比如相似性学习，特征学习等等也是监督的，但是不是分类。

再举个例子，正如人们通过已知病例，来学习诊断技术那样，计算机要通过学习才能具有识别各种事物和现象的能力。用来进行学习的材料就是与被识别对象属于同类的有限数量样本。监督学习中在给予计算机学习样本的同时，还告诉计算各个样本所属的类别。若所给的学习样本不带有类别信息，就是无监督学习(浅显点说：同样是学习训练，监督学习中，给的样例比如是已经标注了如心脏病的、肝炎的；而无监督学习中，就是给你一大堆的样例，没有标明是何种病例的)。

在《支持向量机导论》一书中，监督学习的定义是：当样例是以输入/输出对给出时，称为监督学习，有输入/输出函数关系的样例称为训练数据。而在无监督学习中，其数据不包含输出值。

简言之，有监督学习（supervised learning）不仅把训练数据丢给计算机，而且还把分类的结果（数据具有的标签）也一并丢给计算机分析。无监督学习（unsupervised learning）只给计算机训练数据，不给结果（标签），因此计算机无法准确地知道哪些数据具有哪些标签，只能凭借强大的计算能力分析数据的特征，从而得到一定的成果，通常是得到一些集合，集合内的数据在某些特征上相同或相似。

分类:网络日志| 查看评论

才子佳人博客

我的故事我讲述

站内百度搜索

最新文章

按关键词搜索

按文章标题搜索

文章分类点击排行

友情链接