才子佳人博客

我的故事我讲述

关联分析中两个常用指标:支持度(support)和置信度(confidence)
 
来源:xjh  编辑:xjh  2016-05-23

在各种数据挖掘算法中,关联规则挖掘是比较重要的一种,本文对关联分析中两个重要参数(指标)做一个简要总结。

首先,和聚类算法一样,关联规则挖掘属于无监督学习方法,它描述的是在一个事务中物品(项)间同时出现的知识模式,现实生活中,比如超市购物时,顾客购买记录常常隐含着很多关联规则,比如购买圆珠笔的顾客中有65%也购买了笔记本,利用这些规则,商场人员可以很好的规划商品摆放问题,下面对两个指标做简要介绍。

支持度(support)和置信度(confidence)是关联规则中的两个指标,代表规则的有用性(普遍性)和确定性(可靠性)。对于啤酒-尿布这个经典的关联规则:

beers=>diapers[support=10%,confidence=60%]

support=10%表示beers和diapers同时出现的概率是10%

confidence=60%表示已知购买beers的条件下,购买diapers的概率是60%(购买beers的顾客,60%也购买了diapers),所以置信度是条件概率。

支持度(Support)的公式是:Support(A->B)=P(A U B)。

支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小,说明A与B的关系不大;如果A与B同时出现的非常频繁,则说明A与B总是相关的。

置信度(Confidence)的公式式:Confidence(A->B)=P(B | A )。

置信度揭示了A出现时,B是否也会出现或有多大概率出现。如果置信度度为100%,则A和B可以捆绑销售了。如果置信度太低,则说明A的出现与B是否出现关系不大。

来源参考:

蒋盛益等,《数据挖掘原理与实践》,电子工业出版社,2013.2
http://blog.sina.com.cn/s/blog_50b290120100dwet.html
http://blog.csdn.net/mlzhu007/article/details/8741317


分类:网络日志| 查看评论
相关文章
文章点击排行
本年度文章点击排行
发表评论:
  • 昵称: *
  • 邮箱: *
  • 网址:
  • 评论:(最多100字)
  • 验证码: