--Data Mining 学习笔记【一】

本站首页 管理页面写新日志退出

« October 2025 »
日一二三四五六
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31

公告

暂无公告...

我的分类（专题）

首页(18)
data mining(7)
diary(0)
unix/linux(7)
tools(2)
css(1)
java(1)
javascript(1)

日志更新

键盘快捷键--没有鼠标一样行
MyEclipse+Resin 安装文档
JavaScript DOM 编程艺术
The Easy Way to Extr
比价网与深度网络
the zen of css desig
FreeBSD 6.2安装及配置桌面环境
freebsd 6.2 安装配置笔记
VI指令摘要
VI命令收集

最新评论

回复:The Easy Way to E

留言板

签写新留言

链接

DHTML

eYou帮

Java国内站

Java国外站

PHP博客

PHP国内站点

PHP国外站点

Unix C/C++

Unix/Linux

程序设计

大牛blog

实用网站

网络安全

在线手册

Blog信息

blog名称:
日志总数:18
评论数量:37
留言数量:0
访问次数:137668
建立时间:2007年7月19日

[data mining]Data Mining 学习笔记【一】
其他

jdilt 发表于 2007/7/22 13:09:50

第一章引言数据仓库：多个一种数据源在单个站点以统一的模式组织存储，以支持决策分析。数据仓库技术包括数据清理数据集成联机分析处理（OLAP） OLAP是一种分析技术，具有汇总、合并和聚集功能。数据挖掘（DM）or 知识发现（KDD）过程： 1）数据清理（消除噪声或不一致数据） 2）数据集成（组合多种数据源） 3）数据选择（从数据库中检索与分析任务相关的数据） 4）数据变换（数据变换或统一成适合挖掘的形式） 5）数据挖掘（使用智能方法提取数据模式） 6）模式评估（根据某种兴趣度度量，识别表示知识的真正有趣的模式） 7）知识表示（使用可视化和知识表示技术，向用户提供挖掘到的知识）数据挖掘的功能 —— 可以挖掘什么类型的模式数据挖掘任务分两类：描述 and 预测 Descriptive mining tasks characterize the general properties of the data in the database. Predictive mining tasks perform inference on the current data in order to make predictions. 描述性的数据挖掘任务用于特征化数据库数据的一般属性。预测性数据挖掘任务通过对当前数据进行推断来进行预测。 Data mining functionalities, and the kinds of patterns they can discover, are described below. 1、 Concept/class description: characterization and discrimination These descriptions can be derived via 1） data characterization, by summarizing the data of the class under study (often called the target class) in general terms 2） data discrimination, by comparison of the target class with one or a set of comparative classes (often called the contrasting classes) 3） both data characterization and discrimination 2、 Association analysis Support 支持度 confidence 置信度 multidimensional association rule single-dimensional association rules 3、 Classication and prediction 分类：通过对类标签已知数据（即：训练数据）的分析，得到一组模型或公式。然后可以利用得到的模型来预测类标签未知对象的分类。模型的表示形式：（IF-THEN）分类规则、判定树、数学公式、神经网络分类用于预测数据对象的类标记预测用于预测空缺或不可用的数值相关分析可能在分类和预测之前进行，用于识别对分类和预测无用的属性。预先排除。 4、 Clustering analysis 由于一般情况下，训练数据并不是被标记好的，所以，需要用聚类分析来给训练数据分组。分组原则：最大化类内相似性、最小化类间相似性（maximizing the intraclass similarity and minimizing the interclass similarity）每个形成的簇看作一个对象类，由它导出规则。

阅读全文(1405) | 回复(0) | 编辑 | 精华

发表评论：

昵称：
密码：
主页：
标题：

验证码： (不区分大小写,请仔细填写,输错需重写评论内容！)

站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.039 second(s), page refreshed 144800915 times.
《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号