|  Blog信息 |  
|   | 
 blog名称:IDMer (数据挖掘者) 日志总数:175 评论数量:848 留言数量:119 访问次数:2523858 建立时间:2005年6月24日  |    
 
|  我的相册 |  
|   | 
  
  |    
 
 
 
|  联系方式 |  
  | 
 |    
 
  
  
 
  |    | 
 
|  公告 |  
“数据挖掘者”博客已经搬家,欢迎光临新博客网址:http://idmer.blog.sohu.com  我的新浪微博:@张磊IDMer |  
|  网络日志 |  
 | 
[转] 机器学习与数据挖掘 (周志华) | 
 |  
 | 
 | 
 |  
 | 
数据挖掘者 发表于 2007/12/17 22:03:42 | 
 |  
 |  
 | 
全文:http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/cccf07.pdf
机器学习与数据挖掘 周 志 华 南京大学计算机软件新技术国家重点实验室,南京 210093 
【摘要】    “机器学习”是人工智能的核心研究领域之一, 其最初的研究动机是为了让计算机系统具有人的学习能力以便实现人工智能,因为众所周知,没有学习能力的系统很难被认为是具有智能的。目前被广泛采用的机器学习的定义是“利用经验来改善计算机系统自身的性能”[1]。事实上,由于“经验”在计算机系统中主要是以数据的形式存在的,因此机器学习需要设法对数据进行分析,这就使得它逐渐成为智能数据分析技术的创新源之一,并且为此而受到越来越多的关注。     “数据挖掘”和“知识发现”通常被相提并论,并在许多场合被认为是可以相互替代的术语。对数据挖掘有多种文字不同但含义接近的定义,例如“识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程”[2]。其实顾名思义,数据挖掘就是试图从海量数据中找出有用的知识。大体上看,数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。     因为机器学习和数据挖掘有密切的联系,受主编之邀,本文把它们放在一起做一个粗浅的介绍。  | 
 |  
 |  
 | 
  阅读全文(17173) | 回复(6) | 编辑 | 精华 | 
 |  
 |  
 | 
 | 
 |  
 |   
 | 
回复:[转] 机器学习与数据挖掘 (周志华) | 
 |  
 | 
 | 
 |  
 | 
萨芬(游客)发表评论于2009/12/29 22:18:52 | 
 |  
 |  
 | 
周志华是抄袭大牛啊 | 
 |  
 |  
 | 
  个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 | 
 |  
 |  
 | 
 | 
 |  
 |   
 | 
回复:[转] 机器学习与数据挖掘 (周志华) | 
 |  
 | 
 | 
 |  
 | 
momo(游客)发表评论于2008/5/31 15:28:33 | 
 |  
 |  
 | 
“实际上机器学习的方法都是数据量越大,泛化性能越好的,而并不是说单纯为中小规模数据设计,数据多了反而效果更差。SVM、ANN、AdaBoost等等都是数据量越大,泛化能力越强。只不过因为数据量增大带来了计算量和存储量的增大,而受制于计算机硬件条件。这个问题同样是数据挖掘所面临的。”
磊磊的这个说法严重不同意。研究机器学习的基本都是在搞算法,基本不考虑数据的存储和管理。大多数算法都是要把数据全部都到内存里面去才能做,数据大了根本就跑不起来。象决策树这么经典的算法,JiaweiHan的书里面写了几个搞DM的做的改进算法,那几个才是能处理大数据的,但是搞机器学习的基本不研究这些。
 
  | 
 |  
 |  
 | 
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 | 
 |  
 |  
 | 
 | 
 |  
 |   
 | 
回复:[转] 机器学习与数据挖掘 (周志华) | 
 |  
 | 
 | 
 |  
 | 
Rain(游客)发表评论于2008/4/22 17:50:07 | 
 |  
 |  
 | 
这个是周大牛写的介绍文字(给不知道DM是什么的),所以磊磊的疑问本来就不是问题啊。
留个记号在这 | 
 |  
 |  
 | 
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 | 
 |  
 |  
 | 
 | 
 |  
 |   
 | 
回复:[转] 机器学习与数据挖掘 (周志华) | 
 |  
 | 
 | 
 |  
 | 
jeffye(游客)发表评论于2008/3/7 21:29:57 | 
 |  
 |  
 | 
哈哈,摘要也不错啊,博主辛苦了 | 
 |  
 |  
 | 
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 | 
 |  
 |  
 | 
 | 
 |  
 |   
 | 
回复:[转] 机器学习与数据挖掘 (周志华) | 
 |  
 | 
 | 
 |  
 | 
磊磊fans(游客)发表评论于2008/2/15 7:01:02 | 
 |  
 |  
 | 
小周的这篇文章太没水平了。(其它的文章虽然发的多,重要的会议期刊也发了一些,但是真正work的方法却很少。)
1、通篇文章没有提出什么创新的观点;2、没有很好地把机器学习与数据挖掘联系起来,尤其是机器学习方面的综述太散了,将其分成“归纳逻辑程序设计”、“神经网络”以及SVM也相当偏颇,而且关键是它们跟数据挖掘的联系也没有提到,比如如何应用以及成功案例等等。以上这些都不展开讲了。还有些观点也不正确。3、周提到“从数据分析的角度来看,绝大多数数据挖掘技术都来自机器学习领域。但能否认为数据挖掘只不过就是机器学习的简单应用呢?答案是否定的。一个重要的区别是,传统的机器学习研究并不把海量数据作为处理对象,很多技术是为处理中小规模数据设计的,如果直接把这些技术用于海量数据,效果可能很差,甚至可能用不起来。”实际上机器学习的方法都是数据量越大,泛化性能越好的,而并不是说单纯为中小规模数据设计,数据多了反而效果更差。SVM、ANN、AdaBoost等等都是数据量越大,泛化能力越强。只不过因为数据量增大带来了计算量和存储量的增大,而受制于计算机硬件条件。这个问题同样是数据挖掘所面临的。所以,这两者之间面临的是相同的问题——提高机器学习的泛化能力(可以通过提高学习样本数量以及其它办法)。
:) | 
 |  
 |  
 | 
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 | 
 |  
 |  
 | 
 | 
 |  
 |   
 | 
回复:[转] 机器学习与数据挖掘 (周志华) | 
 |  
 | 
 | 
 |  
 | 
dodo(游客)发表评论于2007/12/18 21:20:18 | 
 |  
 |  
 | 
呵呵,老公为什么只转个摘要?
以下为blog主人的回复:
;-) 全文在贴子第一行的链接中。 | 
 |  
 |  
 | 
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 | 
 |  
 |  
 | 
 | 
 |  
 |    »  1 » 
  |    |