第一章 引言
数据仓库:多个一种数据源在单个站点以统一的模式组织存储,以支持决策分析。
数据仓库技术包括 数据清理 数据集成 联机分析处理(OLAP)
OLAP是一种分析技术,具有汇总、合并和聚集功能。
数据挖掘(DM)or 知识发现(KDD)过程:
1) 数据清理 (消除噪声或不一致数据)
2) 数据集成 (组合多种数据源)
3) 数据选择 (从数据库中检索与分析任务相关的数据)
4) 数据变换 (数据变换或统一成适合挖掘的形式)
5) 数据挖掘 (使用智能方法提取数据模式)
6) 模式评估 (根据某种兴趣度度量,识别表示知识的真正有趣的模式)
7) 知识表示 (使用可视化和知识表示技术,向用户提供挖掘到的知识)
数据挖掘的功能 —— 可以挖掘什么类型的模式
数据挖掘任务分两类:描述 and 预测
Descriptive mining tasks characterize the general properties of the data in the database. Predictive mining tasks perform inference on the current data in order to make predictions.
描述性的数据挖掘任务用于特征化数据库数据的一般属性。
预测性数据挖掘任务通过对当前数据进行推断来进行预测。
Data mining functionalities, and the kinds of patterns they can discover, are described below.
1、 Concept/class description: characterization and discrimination
These descriptions can be derived via
1) data characterization, by summarizing the data of the class under study (often called the target class) in general terms
2) data discrimination, by comparison of the target class with one or a set of comparative classes (often called the contrasting classes)
3) both data characterization and discrimination
2、 Association analysis
Support 支持度 confidence 置信度
multidimensional association rule
single-dimensional association rules
3、 Classication and prediction
分类:通过对类标签已知数据(即:训练数据)的分析,得到一组模型或公式。然后可以利用得到的模型来预测类标签未知对象的分类。
模型的表示形式:(IF-THEN)分类规则、判定树、数学公式、神经网络
分类用于预测数据对象的类标记
预测用于预测空缺或不可用的数值
相关分析 可能在分类和预测之前进行,用于识别对分类和预测无用的属性。预先排除。
4、 Clustering analysis
由于一般情况下,训练数据并不是被标记好的,所以,需要用聚类分析来给训练数据分组。分组原则:最大化类内相似性、最小化类间相似性 (maximizing the intraclass similarity and minimizing the interclass similarity)每个形成的簇看作一个对象类,由它导出规则。 |