才子佳人博客

我的故事我讲述

数据挖掘前景、热点和难点
 
来源:xjh  编辑:xjh  2009-06-07

数据挖掘的前景

网络信息化加速推动数据挖掘的应用:

Data mining会成为未来十年重要的技术之一。它的应用将无所不在,只要你有海量的数据。而有了网络,谁没有海量的数据?比如说微软今天经过网络自动收集所有用户crash的数据,就可以用data mining找出最多人碰上的bug。任何一个公司都可以收集顾客的数据(顾客购买的pattern,顾客搜索的log,顾客回馈的信息……)。在今天 customer relationship management日益重要的时候,data mining能帮助一个由众多用户的公司把握它的用户的满意度、习性、要求……

在未来的世界里,经过GPS、IPV6等技术,每一个电子设备都可以上网,经此每一个人的每一个行为都可以被记录。这个记录更将成为Data mining最好的对象。每一个商店可以知道什么样的客户过门而不入。每一个公安部门可以知道什么样的人最可能犯罪。每一个学校可以预测什么样的学生会最成功。  

数据挖掘的研究和应用:

目前,国外数据挖掘的发展趋势其研究方面主要有:对知识发现方法的研究进一步发展,如近年来注重对Bayes(贝叶斯)方法以及Boosting方法的研究和提高;传统的统计学回归法在KDD中的应用;KDD与数据库的紧密结合。在应用方面包括:KDD商业软件工具不断产生和完善,注重建立解决问题的整体系统,而不是孤立的过程。用户主要集中在大型银行、保险公司、电信公司和销售业。国外很多计算机公司非常重视数据挖掘的开发应用,IBM和微软都成立了相应的研究中心进行这方面的工作,此外,一些公司的相关软件也开始在国内销售,如Platinum、BO以及IBM。

国内从事数据挖掘研究的人员主要在大学,也有部分在研究所或公司。所涉及的研究领域很多,一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。目前进行的大多数研究项目是由政府资助进行的,如国家自然科学基金、863计划、"九五"计划等,但还没有关于国内数据挖掘产品的报道。   

一份最近的Gartner报告中列举了在今后3~5年内对工业将产生重要影响的五项关键技术,其中KDD和人工智能排名第一。同时,这份报告将并行计算机体系结构研究和KDD列入今后5年内公司应该投资的10个新技术领域。

可以看出,数据挖掘的研究和应用受到了学术界和实业界越来越多的重视。进行数据挖掘的开发并不需要太多的积累,国内软件厂家如果进入该领域,将处于和国外公司实力相差不很多的起跑线上,并且,现在关于数据挖掘的一些研究成果可以在Internet上免费获取,这更是一个可以利用的条件。我们希望数据挖掘能够引起国内实业界更多的重视,同时也希望能够有更多的国内软件厂商进入该领域,一起促进数据挖掘技术在中国的应用。 摘自《互联网周刊 》

数据挖掘热点

就目前来看,将来的几个热点包括网站的数据挖掘(Web site data mining)、生物信息或基因(Bioinformatics/genomics)的数据挖掘及其文本的数据挖掘(Textual mining)。下面就这几个方面加以简单介绍。

- 网站的数据挖掘(Web site data mining)

需求:

随着Web技术的发展,各类电子商务网站风起云涌,建立起一个电子商务网站并不困难,困难的是如何让您的电子商务网站有效益。要想有效益就必须吸引客户,增加能带来效益的客户忠诚度。电子商务业务的竞争比传统的业务竞争更加激烈,原因有很多方面,其中一个因素是客户从一个电子商务网站转换到竞争对手那边,只需点击几下鼠标即可。网站的内容和层次、用词、标题、奖励方案、服务等任何一个地方都有可能成为吸引客户、同时也可能成为失去客户的因素。而同时电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件(Logfiles)和登记表,如何对这些数据进行分析和挖掘,充分了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足于不同客户群体需要的个性化网站,进而增加其竞争力,几乎变得势在必行。若想在竞争中生存进而获胜,就要比您的竞争对手更了解客户。

电子商务网站数据挖掘:

在对网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是客户的背景信息,此部分信息主要来自于客户的登记表;而另外一部分数据主要来自浏览者的点击流(Click-stream),此部分数据主要用于考察客户的行为表现。但有的时候,客户对自己的背景信息十分珍重,不肯把这部分信息填写在登记表上,这就会给数据分析和挖掘带来不便。在这种情况之下,就不得不从浏览者的表现数据中来推测客户的背景信息,进而再加以利用。

就分析和建立模型的技术和算法而言,网站的数据挖掘和原来的数据挖掘差别并不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自于点击流,和传统的数据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工作是数据准备。目前,有很多厂商正在致力于开发专门用于网站挖掘的软件。

生物信息或基因的数据挖掘

生物信息或基因数据挖掘则完全属于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受益非浅。例如,基因的组合千变万化,得某种病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。

对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型


分类:网络日志| 查看评论
相关文章
文章点击排行
本年度文章点击排行
发表评论:
  • 昵称: *
  • 邮箱: *
  • 网址:
  • 评论:(最多100字)
  • 验证码: