本站首页    管理页面    写新日志    退出


«October 2025»
1234
567891011
12131415161718
19202122232425
262728293031


公告
暂无公告...

我的分类(专题)

日志更新

最新评论

留言板

链接


Blog信息
blog名称:
日志总数:4
评论数量:3
留言数量:0
访问次数:38627
建立时间:2008年10月14日




[数据挖掘]数据预处理技术综述笔记
原创空间,  电脑与网络

whbh1984 发表于 2009/1/7 17:16:08

摘要: 数据挖掘是数据库系统和信息决策领域的前沿研究方向.论述了数据预处理在数据挖掘中的重要地位,介绍了数据预处理所包含的内容和采用的方法.关键词: 数据挖掘;数据预处理;数据清理;数据集成;数据归约数据挖掘把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持服务.数据挖掘过程可分为:问题定义、数据预处理、数据挖掘以及结果的解释和评估等阶段.目前对数据挖掘的研究主要集中于挖掘技术、挖掘算法、挖掘语言等.而事实上数据挖掘对所处理的数据有严格的质量要求.在数据挖掘过程中数据预处理至关重要.根据统计,在一个完整的数据挖掘过程中,数据预处理要花费60左右的时间,而后的挖掘工作仅占总工作量的10左右 。数据预处理主要包括数据清理、集成和归约.数据清理是处理数据中的遗漏和清洗脏数据.数据集成将多数据源中的数据进行合并处理,解决语义模糊性并整合成一致的数据存储.数据归约将辨别出需要挖掘的数据集合,缩小处理范围.1 数据清理数据清理主要处理空缺值,平滑噪声数据(脏数据),识别、删除孤立点.数据清理的基本方法:(1)空缺值处理 目前最常用的方法是使用最可能的值填充空缺值,比如可以用回归、贝叶斯形式化方法工具或判定树归纳等确定空缺值.这类方法依靠现有的数据信息来推测空缺值,使空缺值有更大的机会保持与其他属性之间的联系.还有其他一些方法来处理空缺值,如用一个全局常量替换空缺值、使用属性的平均值填充空缺值或将所有元组按某些属性分类,然后用同一类中属性的平均值填充空缺值.如果空缺值很多,这些方法可能误导挖掘结果.(2)噪声数据处理噪声是一个测量变量中的随机错误或偏差,包括错误的值或偏离期望的孤立点值.可以用以下的数据平滑技术来平滑噪声数据,识别、删除孤立点.①分箱:将存储的值分布到一些箱中,用箱中的数据值来局部平滑存储数据的值.具体可以采用按箱平均值平滑、按箱中值平滑和按箱边界平滑;② 回归:可以找到恰当的回归函数来平滑数据.线性回归要找出适合两个变量的“最佳”直线,使得一个变量能预测另一个.多线性回归涉及多个变量,数据要适合一个多维面}收稿日期;2OO2一O4—1O维普资讯 http://www.cqvip.com118 甘肃科学学报 2003年第1期③计算机检查和人工检查结合:可以通过计算机将被判定数据与已知的正常值比较,将差异程度大于某个阈值的模式输出到一个表中,然后人工审核表中的模式,识别出孤立点;④聚类:将类似的值组织成群或“聚类”,落在聚类集合之外的值被视为孤立点.孤立点模式可能是垃圾数据,也可能是提供信息的重要数据.垃圾模式将从数据库中予以清除.2 数据集成数据挖掘需要对数据进行集成,也就是将多个数据源中的数据合并存放在一个同一的数据存储(如数据仓库、数据库等)中,数据源可以是多个数据库、数据立方体或一般的数据文件.数据集成涉及3个问题:(1)模式集成 涉及实体识别,即如何将不同信息源中的实体匹配来进行模式集成.通常借助于数据库或数据仓库的元数据进行模式识别;(2)冗余数据集成往往导致数据冗余,如同一属性多次出现、同一属性命名不一致等.对于属性间冗余可以用相关分析检测到,然后删除;(3)数据值冲突的检测与处理 由于表示、比例、编码等的不同,现实世界中的同一实体,在不同数据源的属性值可能不同.这种数据语义上的歧义性是数据集成的最大难点,目前没有很好的办法解决.3 数据归约数据归约技术可以用来得到数据集的归约表示,它接近于保持原数据的完整性,但数据量比原数据小得多.与非归约数据相比,在归约的数据上进行挖掘,所需的时间和内存资源更少,挖掘将更有效,并产生相同或几乎相同的分析结果.几种数据归约的方法:(1)维归约通过删除不相关的属性(或维)减少数据量.不仅压缩了数据集,还减少了出现在发现模式上的属性数目.通常采用属性子集选择方法找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性的原分布.属性子集选择的启发式方法技术有:①逐步向前选择:由空属性集开始,将原属性集中“最好的”属性逐步填加到该集合中;②逐步向后删除:由整个属性集开始,每一步删除当前属性集中的“最坏”属性;③向前选择和向后删除的结合:每一步选择“最好的”属性,删除“最坏的”属性;④ 判定树归纳:使用信息增益度量建立分类判定树,树中的属性形成归约后的属性子集.(2)数据压缩应用数据编码或变换,得到原数据的归约或压缩表示.数据压缩分为无损压缩和有损压缩.比较流行和有效的有损数据压缩方法是小波变换和主要成分分析.小波变换对于稀疏或倾斜数据以及具有有序属性的数据有很好的压缩结果.主要成分分析计算花费低,可以用于有序或无序的属性,并且可以处理稀疏或倾斜数据.(3)数值归约数值归约通过选择替代的、较小的数据表示形式来减少数据量.数值归约技术可以是有参的,也可以是无参的.有参方法是使用一个模型来评估数据,只需存放参数,而不需要存放实际数据.有参的数值归约技术有以下2种:回归:线性回归和多元回归;对数线性模型:近似离散属性集中的多维概率分布.无参的数值归约技术有3种:①直方图:采用分箱技术来近似数据分布,是一种流行的数值归约形式.其中V一最优和MaxDiI{直方图是最精确和最实用的;②聚类:聚类是将数据元组视为对象,它将对象划分为群或聚类,使得在一个聚类中的对象“类似”,而与其他聚类中的维普资讯 http://www.cqvip.com第15卷 刘莉等:数据挖掘中数据预处理技术综述 119对象“不类似”,在数据归约时用数据的聚类代替实际数据;③ 选样:用数据的较小随机样本表示大的数据集,如简单选样、聚类选样和分层选样等.(4)概念分层概念分层通过收集并用较高层的概念替换较低层的概念来定义数值属性的一个离散化.概念分层可以用来归约数据,通过这种概化尽管细节丢失了,但概化后的数据更有意义、更容易理解,并且所需的空间比原数据少.对于数值属性,由于数据的可能取值范围的多样性和数据值的更新频繁,说明概念分层是困难的.数值属性的概念分层可以根据数据的分布分析自动地构造,如用分箱、直方图分析、聚类分析、基于熵的离散化和自然划分分段等技术生成数值概念分层.分类数据本身是离散数据,一个分类属性具有有限个不同值,值之间无序.一种方法是由用户专家在模式级显示地说明属性的部分序或全序,从而获得概念的分层;另一种方法是只说明属性集,但不说明它们的偏序,由系统根据每个属性不同值的个数产生属性序,自动构造有意义的概念分层.4 结束语在数据实际挖掘过程中,数据清理、数据集成和数据归约不一定都用到.此外,它们的使用没有先后顺序,某一种预处理可能先后要多次进行.尽管有多种数据预处理的方法和技术,但都不够成熟.所以,对数据挖掘中的数据预处理还需要做很多研究.


阅读全文(3218) | 回复(0) | 编辑 | 精华
 



发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)



站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.422 second(s), page refreshed 144794206 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号