-
2021-10-20 18:55:18
数据仓库与数据挖掘知识点梳理
一:数据挖掘
1:什么是数据挖掘
数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。
----简单的说,数据挖掘就是从大量的数据中发现有用信息的过程数据的丰富带来了对强有力的数据分析工具的需求:
解决办法:数据仓库技术和数据挖掘技术
数据仓库和联机分析处理技术(存储)
数据挖掘:在大量的数据中挖掘感兴趣的知识/规则/规律/模式/约束(分析)。注意事项:
- 早期的数据库主要支持联机事务处理
- 数据仓库用于决策分析,并不是所谓的大型数据库。
—数据仓库的数据是大量数据库的集成。 - 数据库用于事务处理,数据仓库用于决策分析
2:数据挖掘的功能
- 关联分析(描述):反映一个事件和其他事件之间依赖或关联的知识。
- 聚类分析(描述):物以类聚,人以群分
- 分类(预测):反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。
------注:聚类是一种无指导的观察式学习,没有预先定义的类;而分类问题是有指导的示例式学习,有预先定义的类。 - 孤立点分析(预测):
1.关联分析(描述) 反映一个事件和其他事件之间依赖或关联的知识 2.聚类分析(描述) 物以类聚,人以群分 3.分类(预测) 反映同类事物共同性质的特征型知识和不同事物之间的差 4.孤立点分析(预测) 对差异和极端特例的描述 数据库 事务型(操作型)数据处理 数据仓库 分析型数据处理 数据挖掘 知识发现 二:数据仓库
1:什么是数据仓库
数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术。
数据仓库之父:William H.Inmon
严格定义:
数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.—W.H.Inmon2:数据仓库的作用
- 存储经过加工处理的决策需要的数据
- 查询和决策分析的依据
3:数据仓库的关键特征
- 面相主题的:
数据仓库中所有数据都是围绕某一主题组织、展开的 - 集成的:
一个数据仓库是通过集成多个异种数据源来构造的 - 不容易丢失的(非易失的):
只进行两种数据访问:
数据的初始装载;
查询操作 - 随时间而变化的(时变的):
从历史的角度提供信息
4:数据仓库与数据挖掘的区别
数据仓库:是一种存储技术,它能适应于不同用户提供对不同决策需要所需的数据和信息。
数据挖掘:是一种分析技术,研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。注:数据仓库并不是数据挖掘的必要条件
三:数据立方体
数据仓库和OLAP工具是基于多维数据模型的。在多维数据模型中,数据以数据立方体(data cube)的形式存在。
- 尽管我们经常把数据立方体看作3-D几何结构,但实际上,在数据仓库中,数据立方体是n-D的
- 3-D的数据立方体可以以2-D的数据表的序列表示
1.概念分层
- 单个维度的角度考察
- 在数据仓库中,一个概念分层(concept hierarchy)定义一个映射序列,将低层概念映射到更一般的高层概念。
- 对于一个给定的属性或维,根据不同的用户视图,可能有多个概念层次:如,表示location的概念:城市省份国家洲;
2.方体的格
- 给定一个维的集合,将在不同汇总级别上给出的数据立方体称为方体的格。
- 每个方体的格都在不同的汇总级或不同的数据子集显示数据。
- 0维方体存放最高层的汇总,称作顶点方体(如总销售dollars-sold);而存放最底层汇总的方体则称为基本方体(如图2所示的4维基本方体) 。
3.数据仓库的三级模型
(1)概念模型:
从客观世界到主观认识的映射;
首先将现实世界抽象为概念模型,然后再用适合计算机世界的模型和语言来描述。
(2)逻辑模型:
逻辑模型描述了数据仓库主题的逻辑实现.
(3)物理模型
逻辑模型在数据仓库中的实现,如数据存储结构、存储策略、索引策略、存储分配优化等。一:概念模型
- 数据仓库用“信息包图”表示概念模型。
- 一个信息包图生成一个事实表。
- 度量表示事实与指标。
二:逻辑模型
- 是数据仓库数据模型的第二层;
- 通常有三种逻辑模型表示法:
星型模型:事实表在中心,周围围绕地连接着维表(每维一个)。
------(一个事实表)
雪花模型:是星型模型的变种。
--------(一个事实表)
事实星座模型:复杂的应用(如多主题的数据仓库)可能需要多个事实表共享维表。
--------(针对两个会两个以上的数据仓库)
几个基本概念:
维和维表:- 维:关于一个组织想要记录的视角或观点。
- 维表:每个维都有一个表与之相关联
事实和事实表:
- 事实:指的是一些数字度量
- 事实表:包括事实的名称或度量,以及每个相关维表的关键字。
三:物理模型
是逻辑模型在数据仓库中的实现;
主要进行:数据存储结构、存储策略、索引策略、存储分配优化等工作。有两种常见的存储结构:
1)分布式存储;
2)集中式存储。四:OLAP
1. OLAP的基本概念?
定义:联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。
60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展。
多维数据库和多维分析的概念,即OLAP2.OLAP与OLTP
OLTP :是传统的关系型数据库的主要应用,包括记录实时的增、删、改、查,主要是面向基本的、日常的事务处理
OLAP:是数据仓库的主要应用,支持复杂的分析操作,侧重决策支持3.OLAP的特性
1.快速性 :用户对OLAP的快速反应能力有很高的要求。
2.可分析性 :OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。
3.多维性 :系统必须提供对数据的多维视图和分析。
4.信息性 :OLAP系统应能及时获得信息,并且管理大容量信息。4.OLAP的分析方法
- 切片(Slice)
从多维数组选定一个二维子集,切出一个“平面” - 切块(Dice)
从多维数组选定一个三维子集,切出一个“立方体” - 旋转(Rotate)
改变一个报告(或页面)显示的维方向 - 钻取(Drill)
根据维层次,改变数据的粒度,在单个维上进行
基本概念:
维:是人们观察数据的特定角度,是考察问题时的一类属性,属性集合构成一个维(时间维、地理维等)。
维的层次:人们观察数据的某个特定角度(即某个维),还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。
维的成员:维的一个取值。是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述)
多维数组:维和变量的组合表示。一个多维数组可以表示为(维1,维2,…,维n,变量)。(时间,地区,产品,销售额)
数据单元(单元格):多维数组的取值。(2000年1月,上海,笔记本电脑,¥10000)五:数据预处理
1.脏数据分类:
- 杂乱性:如命名规则的不同
- 重复性:同一客观事物在数据库中存在两个以上相同的物理描述。
- 不完整性:由于实际系统设计时存在的缺陷以及使用过程中的一些人为因素,数据记录可能会出现数据值的丢失或不确定。
- 噪声数据:数据中存在着错误或异常(偏离期望值)
2.数据预处理的常见方法
- 数据清理(清洗)
----去掉数据中的噪声,纠正不一致 - 数据集成
-----将多个数据源合并成一致的数据存储,构成一个完整的数据集,如数据仓库。 - 数据变换(转换)
-----将一种格式的数据转换为另一格式的数据(如规范化) - 数据归约(消减)
----通过聚集、删除冗余属性或聚类等方法来压缩数据。
2.1数据清理
2.1.1空缺值的处理
1)忽略该元组
2)人工填写空缺值
3)使用属性的平均值填充空缺值
4)使用与给定元组属同一类的所有样本的平均值
5)使用一个全局变量填充空缺值
6)使用最可能的值填充空缺值2.1.2噪声数据的处理
1)分箱方法
- 先排序,再分箱
- 等深分箱
- 等宽分箱
- 可以按箱的平均值、按箱中值或者按箱的边界等进行平滑。
2)聚类方法
- 通过聚类分析查找孤立点,消除噪声
3)线性回归
- 发现两个相关的变量之间的变化模式,利用回归分析方法所获得的拟合函数,帮助平滑数据及除去噪声。
4)人机结合共同检测
- 计算机检测可疑数据,然后对它们进行人工判断
2.1.3不一致数据的处理
- 人工更正
- 利用知识工程工具
- 数据字典
2.2数据集成和变换
2.2.1数据集成
数据集成
将多个数据源中的数据整合到一个一致的存储中。
这些源可以是关系型数据库、数据立方体或一般文件。
它需要统一原始数据中的所有矛盾之处,如字段的:- 同名异义;
- 异名同义;
- 单位不统一;
- 字长不一致等。
注意问题:
- 模式匹配问题;
- 冗余问题;
- 数据值冲突问题。
2.2.2数据变换
平滑处理:从数据中消除噪声;
聚集操作:对数据进行综合;
数据规范化:将数据转换到一个较小的范围之内;2.2.2.1规范化方法
- 最小-最大规范化;
- 零-均值规范化(z-score规范化);
- 小数定标规范化。
2.2.2.1 最小—最大规范化
假定minA和maxA分别为属性A的最小和最大值,则通过下面公式将A的值映射到区间[new_min, new_max]中的v’:
假定属性income的最小与最大值分别为$12000和$98000,可根据最小—最大规范化方法将其范围映射到[0,1]:
如:
属性值$73600将变换为:
[(73600-12000)/(98000-12000)]*(1-0)+0=0.7162.2.2.2 z-score规范化(零均值规范化)
将属性A的值根据其平均值和标准差进行规范化;
常用于属性最大值与最小值未知,或使用最小最大规范化方法会出现异常数据的情况。
其中,meanA、standard-devA分别为属性A取值的均值和标准差。
例:
假定属性income的平均值与标准差分别为$54000和$16000,使用z-score规范化,则属性值$73600将变换为:
(73600-54000)/16000=1.2252.2.2.3 小数定标规范化
通过移动属性A的小数点位置进行规范化,小数点的移动依赖于A的最大绝对值
其中,j是使 Max(| v’ |)<1的最小整数
例:
假定A的取值范围[-986, 917],则A的最大绝对值为986,为使用小数定标规范化,用1000(即j=3)除每个值,这样-986被规范化为-0.986。2.2.3数据规约
- 数据立方体聚集;
- 维归约;
主要用于检测并删除不相关、弱相关或冗余的属性维
最常用的方法:属性子集选择。
1)逐步向前选择 (选好的)
2)逐步向后删除(删差的)
3)向前选择和向后删除的结合(1+2)
4)判定树归纳
在判定树的每个节点,算法选择“最好”的属性,将数据划分成类。
当判定树归纳用于属性子集选择时,不出现在树中的所有属性假定是不相关的;出现在判定树中的属性形成归约后的属性子集。 - 数据离散化。
标称型(名称型、名义型):数值来自于无序集合,如性别、地名、人名等。
序数型:数值来自于有序集合,如奖学金的等级;职称分布等。
连续型:实数值,如温度、体重等。
2.2.3.1离散化方法
1)分箱:属性的值可以通过将其分配到各分箱中而将其离散化。
利用每个分箱的均值或中数替换每个分箱中的值(利用均值或中数进行平滑)。
2)基于熵的离散化:通过信息熵度量,实现离散化
3)通过自然划分分段:3-4-5自然划分分段法
4)聚类:聚类算法可以将数据集划分为若干类或组,每个类构成概念层次树的一个节点;每个类还可以进一步分解为若干子类,从而构成更低水平的层次。2.2.3.2基于熵的离散化
考虑类别信息,递归计算信息熵,产生分层的离散化。
初始不确定性:
I(S)=
给定一个数据元组的集合S,基于熵对S离散化的方法如下:
1)属性A中的每个取值可被认为是一个潜在的区间边界或阈值T。例如,A的取值v可以将样本S划分为分别满足A<v和A≥v两个子集,这样就创建了一个二元离散化。
2)对于数据集S,根据所划分子集而获得的最大熵增益来选择阈值,划分后数据集S提供的信息如下:学习属性A之后的不确定性:
E(A)=
其中S1和S2分别对应于S中满足条件:A<T与A≥T,的样本。对给定的集合,熵函数Ent根据集合中样本的类分布来计算。例如,给定m个不同类别,S1的熵就是:
其中pi为类i在S1中出现的概率,等于S1中类i的样本除以S1中样本的总行数。同理,计算Ent(S2)。
3)确定阈值的过程递归的用于所得到的每个划分,直到满足某个终止条件,如:信息增益不能低于δ:
Ent(S)-I(S,T) ≤δ
2.2.3.3自然划分分段
将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。
聚类分析产生的概念分层可能会将一个工资区间划分为:[51263.98, 60872.34]
而通常数据分析人员希望看到划分的形式为[50000,60000]
自然划分的3-4-5规则常可以将数值数据划分为相对一致和“自然”的区间。一般的,根据最重要的数字上的值区域,递归的和逐层的将给定的数据区域划分为3、4或5个等宽区间。
规则的划分步骤:
如果一个区间最高有效位上跨越3,6,7或9个不同的值,就将该区间划分为3个等宽子区间;(7->2,3,2)
如果一个区间最高有效位上跨越2,4,或8个不同的值,就将该区间划分为4个等宽子区间;
如果一个区间最高有效位上跨越1,5,或10个不同的值,就将该区间划分为5个等宽子区间;
将该规则递归的应用于每个子区间,产生给定数值属性的概念分层;
规则的划分步骤:
对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分段时,选用一个大部分的概率空间。e.g. 5%-95%
例如,在资产数据集中,少数人的资产可能比其他人高几个数量级。如果按照最高资产值进行分段,可能导致高度倾斜的分层。此时,可以在顶层分段时,选用一个大部分的概率空间。e.g. 5%-95%。
越出顶层分段的特别高和特别低的部分采用类似的规则划分方法形成单独的区间。
假定AllElectronics所有分部1999年的利润覆盖了一个很宽的区间,从-351.00$ 到4700$。要求利用3-4-5规则自动构造利润属性的一个概念层次树。例子:
思路:
设在上述范围取值为5%至95%的区间为:-159$ 至1838$ 。应用3-4-5规则的具体步骤如下:
1)根据以上信息,在利润数据集中最小和最大值分别为:MIN=-351$ , MAX=4700$ 。而根据以上分析,对于分段的顶层或第一层,要考虑的最低(5%)和最高(95%)的值是:LOW=-159$ , HIGH=1838$ 。
2)依据LOW和HIGH及其取值范围,确定最高有效位为1000$ ,LOW按1000$ 美元向下取整 ,得到LOW’=-1000$ ; HIGH按1000$ 向上取整,得到:HIGH’=2000$ 。
3)由于该区间在最高有效位上跨越了3个值,即(2000-(-1000))/1000=3,根据3-4-5规则,该区间被划分成3个等宽区间:(-1000$ ,0], (0, 1000$ ], (1000$ ,2000$ ]。这代表分层结构的最顶层。
4)现在,考察原数据集中MIN和MAX值与最高层区间的联系。由于MIN值落在区间(-1000$ ,0],因此调整左边界,对MIN取整后的-400$ ,所以第一个区间调整为(-400$ ,0]。
而由于MAX值不在最后一个区间 (1000$ ,2000$ ]中,因此需新建一个区间(最右边区间)。对MAX取整后得5000$ ,因此新区间为(2000$ ,5000]。
因此最终,概念树分层结构的最顶层包含4个区间:(-400$ ,0], (0,1000$ ],(1000$ ,2000$ ], (2000$ ,5000$ ]。
5)对上述每个区间递归应用3-4-5规则,形成分层结构的下一个较低层:
第一个区间(-400$ ,0]:划分为4个子区间(-400$ ,-300$ ], (-300$ ,-200$ ], (-200$ ,-100$ ] , (-100$ ,0$ ].
第二个区间(0$ ,1000$ ]:划分为5个子区间(0$ ,200$ ], (200$ ,400$ ], 400$ ,600$ ], (600$ ,800$ ], (800$ ,1000$ ].
第三个区间(1000$ ,2000$ ]:划分为5个子区间(1000$ ,1200$ ], (1200$ ,1400$ ], 1400$ ,1600$ ], (1600$ ,1800$ ], (1800$ ,2000$ ].
第四个区间(2000$ ,5000$ ] :划分为3个子区间(2000$ ,3000$ ], (3000$ ,4000$ ], (4000$ ,5000$]。
类似的,如有必要,3-4-5规则可继续在较低的层次上迭代。更多相关内容 -
完整版数据仓库与数据挖掘全套课程课件 共117页.ppt
2021-08-09 23:08:48数据库(DB)与数据仓库(DW),大数据处理(Big Data)与数据挖掘技术是当代数据处理的最新技术。这几项技术的结合开创了决策支持系统(DSS)发展的新方向。建立DW是科学决策的前提。 课程学习的目标 (1)掌握DB,... -
数据仓库与数据挖掘 - 陈志泊.rar
2019-06-25 14:27:29陈志泊写的《数据仓库与数据挖掘》,数据仓库与数据挖掘 - 陈志泊 -
数据仓库与数据挖掘实验报告二.doc
2020-01-15 10:22:23写的博客上传失败了,链接自取 (https://pan.baidu.com/s/1-c0QG2IJDE5KCE1ln-Go4A) 提取码:a279 -
《数据仓库与数据挖掘技术》实验指导书.doc
2019-06-11 19:23:54《数据仓库与数据挖掘技术》实验指导书,内含各章节的实验内容,可用于本科或研究生的实验指导。。 -
数据仓库与数据挖掘
2021-10-09 10:42:34数据仓库与数据挖掘 第5章 数据预处理 数据与处理的重要性 杂乱性:命名规则不同 重复性:同一客观事物在数据库中存在两个以上相同的物理描述 不完整性:由于实际系统设计时存在的缺陷以及使用过程中的一些人为...数据仓库与数据挖掘
边学边写,持续更新中
配合目录用
第1章 概论
数据挖掘定义:从大量的数据中发现有用信息的过程。
数据仓库和联机分析处理技术(存储)
数据挖掘:在大量的数据中挖掘感兴趣的知识/规则/规律/模式/约束(分析)1.1 数据仓库
数据仓库用于决策分析
- 产生
为了进一步挖掘数据资源、为了决策需要
1.2 数据挖掘
过程
- 功能
- 关联分析(描述)
- 聚类分析(描述)
- 分类(预测)
- 孤立点分析(预测)
-
关联分析
关联规则挖掘:反映一个事件和其他事件之间依赖或关联的知识。
广泛用于购物篮或事物数据分析 -
聚类分析
最大化类内的相似性和最小化类间的相似性(无监督的学习方法)
例如:扑克牌划分 -
分类挖掘
反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识(有监督的学习方法)
通过分析训练集中的数据,为每个类别建立分类分析模型;然后用这个分类分析模型对数据库中的其他记录进行分类。
例如:垃圾邮件识别分类、信用卡的使用-
聚类和分类区别
聚类是一种无指导的观察式学习,没有预先定义的类;
分类是有指导的示例式学习,有预先定义的类 -
孤立点分析
对差异和极端特例的描述
孤立点:事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等;
异常检测通过构建正常行为模型(称为特征描述),来检测与特征描述严重偏离的新的模式。
例如:信用卡欺诈检测、移动电话欺诈检测、医疗分析(异常)
分析极端数据,保险公司
第2章 数据仓库的基本概念
事务型(操作型)数据处理:数据库
分析型数据处理:数据仓库
知识发现:数据挖掘2.1 什么是数据仓库
数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术。用来保存从多个数据库或其它信息源选取的数据,并为上层应用提供统一用户接口,完成数据查询和分析。
数据仓库之父: William H.Inmon 1993
数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.—W.H.Inmon
- 两个主要作用:
- 存储经过加工处理的决策需要的数据
存储数据的一种形式
加工和集成后的再存储 - 查询和决策分析的依据 。为数据驱动型的决策支持提供数据基础
为数据驱动型的决策支持提供数据基础
- 特征
- 面向主题
- 集成的
- 随时间而变化的(时变的)
- 不容易丢失的(非容失)
1. 面向主题
在较高层次上对分析对象的数据进行一个完整、一致的描述,能完整、统一管理各个分析对象所涉及的企业各项数据以及数据之间的联系
高层次:很高的数据抽象级别,如整个企业、组织面向主题,是数据仓库显著区别于关系数据库系统的一个特征
因此数据在进入数据仓库之前,必然要经过加工和集成,将原始数据结构做一个从面向应用到面向主题的大转变
2. 集成性
一个数据仓库是通过集成多个异种数据源来构造的
数据仓库中的综合数据不能从原有的数据库系统直接得到,需使用数据清理和数据集成技术对数据进行处理
主要工作:1.统一源数据中所有矛盾之处(命名约定、编码结构、属性度量等)2.进行数据综合和计算
消除冲突
数据的综合和计算3. 数据不易丢失(稳定的)
尽管数据仓库中的数据来自于操作数据库,但它们却是在物理上分离保存的
只进行两种数据访问:1. 数据的初始装载 2. 查询操作在某个时间点保持不变
定期加载,加载后的数据极少更新。并不意味着数据仓库中的数据不更新
4. 随时间而变化的(时变的)
数据仓库从历史的角度来提供信息:时间范围比操作数据库系统要长的多
例如:- 操作数据库系统: 主要保存当前数据;
数据仓库: 从历史的角度提供信息(比如过去 5-10 年)
数据仓库中的每一个关键结构都隐式或显式地包含时间元素,时间维是数据仓库中一个非常重要的维度
2.2 为什么建立数据仓库
事务型处理:管理者 日常管理 数据库
分析型处理:决策者 预处判断分析 数据仓库区别
环境分离
转同时进行的集成
数据仓库的数据分为四个级别:早期细节级、当前细节级、轻度综合级、高度综合级
数据仓库中的元数据描述了数据的结构、内容、索引、码、数据转换规则、粒度定义等
系统结构
2.3 数据仓库与数据挖掘关系
数据仓库–存储技术
数据挖掘–分析技术联系
成功的数据挖掘的关键之一是通过访问正确的、完整的和集成的数据,以进行深层次的分析,而这正是数据仓库所能提供的
数据仓库不仅是集成数据的一种方式,而且为数据挖掘提供了一个极佳的操作平台数据仓库不是数据挖掘的必要条件
数据挖掘不一定必须建立在数据仓库上,数据仓库不是实施数据挖掘的必要条件2.4 数据立方体
在数据仓库中,数据立方体是n-D的。不只是三维的
多维数据模型为不同角度上的数据建模和观察提供了一个良好的基础
1. 概念分层
在数据仓库中,一个概念分层(concept hierarchy)定义一个映射序列,将低层概念映射到更一般的高层概念
对于一个给定的属性或维,根据不同的用户视图,可能有多个概念层次。例如:
允许我们在各种抽象级审查和处理数据作用:
- 为不同级别的数据汇总提供了一个良好的基础
- 在多维数据模型中,通过在不同维上定义概念分层,使得用户在不同的维上从不同的层次对数据进行观察成为可能
方体的格
定义:给定一个维的集合,将在不同汇总级别上给出的数据立方体称为方体的格
每个方体的格都在不同的汇总级或不同的数据子集显示数据
顶点方体:0维方体存放最高层的汇总
基本方体:存放最底层汇总的方体三级模型
- 概念模型
从客观世界到主观认识的映射
首先将现实世界抽象为概念模型,然后再用适合计算机世界的模型和语言来描述 - 逻辑模型
逻辑模型描述了数据仓库主题的逻辑实现. - 物理模型
逻辑模型在数据仓库中的实现,如数据存储结构、存储策略、索引策略、存储分配优化等
1. 概念模型
是数据仓库的数据模型的第一层或最高层
数据仓库用“信息包图”表示概念模型
信息包图:提供了分析人员思维模式的可视化表示
2. 逻辑模型
是数据仓库数据模型的第二层
通常有三种逻辑模型表示法:星型模型、雪花模型、事实星座模型- 星型模型
事实表在中心,周围围绕地连接着维表
星型模型中,每维只用一个表表示,每个表包含一组属性
这一限制可能造成某些冗余雪花模型
是星型模型的变种
在雪花模型中,某些维表是规范化的,通过把数据进一步分解到附加表中,以便减少冗余 — 表套表- 事实星座模型
复杂的应用(如多主题的数据仓库)可能需要多个事实表共享维表
这种模式可以看作星型模式集,因此称为星系模式
3. 物理模型
是逻辑模型在数据仓库中的实现
主要进行:数据存储结构、存储策略、索引策略、存储分配优化等工作常见存储结构:1. 分布式存储 2. 集中式存储
5. 数据仓库的设计
-
处理类型不同
DB : 操作型数据环境,面向业务
DW: 面向主题的分析型数据环境,面向分析,从基本主题开始,不断发展新主题 -
面向需求不同
DB:业务需求
DW:分析需求 -
设计目标不同
DB:OLTP
DW:OLAP -
数据来源不同
DB:企业的业务流程中产生的数据
DW:系统内部,主要从OLTP系统中获取,经过转换、重组、综合; 同时包括部分外部信息 -
设计方法不同
DB:SDLC – 应用需求驱动
DW:CLDS – 数据驱动(主要)+ 需求驱动
数据驱动是指根据当前数据基础和质量等情况,进行数据源分析
需求驱动是指根据业务方向性需求、业务问题等,确定系统范围和需求框架第3章
3.1 OLAP概述
E.F.Codd 提出了OLAP概念
多维数据库和多维分析的概念定义:联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术
OLAP是针对特定问题的联机数据访问和分析处理。使分析人员能迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的
OLAP的目标是满足决策支持或多维环境下特定的查询和报表需求,其技术核心是“维”这一概念,因此OLAP也可以说是多维数据分析工具的集合
数据仓库侧重于存储和管理面向主题的数据;
OLAP则侧重于数据仓库中的数据分析,并将其转换成辅助决策的信息。- OLAP特性
快速性
可分析性
多维性
信息性
3.2 OLAP的分析方法
切片 切块 旋转 钻取
-
切片
在多维数组的某一维上选定一个维成员,即从n维数组选取n-1维子集.(降维操作)
选择多维数组的一个二维子集 -
切块
定义1:在多维数组的某一维上选定某一区间的维成员,即限制某一维的取值区间
切片是切块的特例,即限制的取值区间只取一个维成员
切块可看作由多个邻接的切片迭合而成
定义2:选定多维数组的一个三维子集 -
钻取
下钻:加深细节
上钻:靠近宏观 -
旋转
改变一个报告或页面显示的内容
3.3 OLAP数据组织
ROLAP:利用关系数据库来存储和管理基本数据和聚合数据,并利用一些中间件来支持缺失数据的处理
具有良好的可扩展性MOLAP:利用多维数据库来存放和管理基本数据和聚合数据
对预综合的数据进行快速索引HOLAP:对最常用的维,使用多维数据库存储;对于不常用的维度,采用ROLAP存储;充分利用ROLAP的可伸缩性和MOLAP的快速计算
第5章 数据预处理
-
数据与处理的重要性
- 杂乱性:命名规则不同
- 重复性:同一客观事物在数据库中存在两个以上相同的物理描述
- 不完整性:由于实际系统设计时存在的缺陷以及使用过程中的一些人为因素,数据记录可能会出现数据值的丢失或不确定
- 噪声数据:数据中存在着错误或异常(偏离期望值)
-
数据预处理的常见方法
-
数据清理(清洗) 去掉数据中的噪声,纠正不一致
-
数据集成 将多个数据源合并成一致的数据存储,构成一个完整的数据集,如数据仓库
-
数据变换(转换) 将一种格式的数据转换为另一格式的数据(如规范化)
-
数据归约(消减) 通过聚集、删除冗余属性或聚类等方法来压缩数据
-
5.1 数据清洗
- 脏数据的来源:
- 空缺值
- 噪声数据
- 不一致数据
1 .空缺值处理方法
- 忽略该元组 问题:占比很大的空缺值忽略后使得数据挖掘的性能变得非常差
- 人工填写空缺值 问题:对人要求高
- 使用属性的平均值填充空缺值 问题:极端数据无法平均
- 使用与给定元组属同一类的所有样本的平均值 适用于分类数据挖掘
- 使用一个全局变量填充空缺值 最简单方法 问题:当填充的空缺值太多,挖掘程序会出问题 不推荐
- 使用最可能的值填充空缺值 最推荐方法 可以利用回归、贝叶斯计算公式或判定树归纳确定,推断出该条记录特定属性最大可能的取值
2. 噪声数据的处理
-
分箱方法 通过考察“邻居”(即周围的值)来平滑存储数据的值 局部平滑
需要确定方法 如何分箱 如何对
-
分箱步骤
-
排序数据,它们分到等深(等宽)的箱中
1.1 等深分箱 按记录数进行分箱,每箱具有相同的记录数,每箱的记录数称为箱的权重,也称箱子的深度
1.2 等宽分箱 在整个属性值的区间上平均分布,即每个箱的区间范围设定为一个常量,称为箱子的宽度 用的最多 处理极端数值最佳方法
-
然后可以按箱的平均值、按箱中值或者按箱的边界等进行平滑
按箱的平均值平滑:箱中每一个值被箱中的平均值替换
按箱的中值平滑:箱中的每一个值被箱中的中值替换
按箱的边界平滑:箱中的最大和最小值被视为箱边界,箱中的每一个值被最近的边界值替换
-
-
-
聚类 相似或相邻近的数据聚合在一起形成各个聚类集合,而那些位于聚类集合之外的数据对象,被视为孤立点
特点:直接形成簇并对簇进行描述,不需要任何先验知识
通过聚类分析查找孤立点,消除噪声
-
计算机和人工检查结合 计算机检测可疑数据,然后对它们进行人工判断
-
回归 发现两个相关的变量之间的变化模式,利用回归分析方法所获得的拟合函数,帮助平滑数据及除去噪声
3. 不一致数据的处理
- 人工更正
- 利用知识工程工具
- 数据字典
5.2 数据集成和变换
数据集成:将来自多个数据源的数据合并到一起
数据变换:对数据进行规范化操作,将其转换成适合于数据挖掘的形式1. 数据集成
模式匹配问题 冗余问题 数据值冲突问题
- 模式匹配 整合不同数据源中的元数据,进行实体识别:匹配来自不同数据源的现实世界的实体
- 数据冗余 有些冗余可以被相关分析检测到 还要检查记录行的冗余
- 数据值冲突 产生的原因:表示、比例或编码不同
2. 数据变换
平滑处理:从数据中消除噪声; 分箱
聚集操作:对数据进行综合;
数据规范化:将数据转换到一个较小的范围之内数据规范化常用方法:将数据按比例缩放至一个小的特定区间
最小-最大规范化;
零-均值规范化(z-score规范化);
小数定标规范化
5.3 数据归约
1. 概念
压缩数据集的规模
数据消减或约简,是在不影响最终挖掘结果的前提下,缩小所挖掘数据的规模。
对归约后的数据集进行挖掘可提高挖掘的效率,并产生相同(或几乎相同)的结果-
标准
- 用于数据归约的时间 不应当超过或“抵消在归约后的数据集上挖掘节省的时间
- 归约得到的数据比原数据小得多,但可以产生相同或几乎相同的分析结果
-
策略
数据立方体聚集
维归约
数据离散化
2. 数据立方体聚集
略
3. 维归约(重点)
主要用于检测并删除不相关、弱相关或冗余的属性维
最常用的方法:属性子集选择。
目标:寻找出最小的属性子集并确保新数据子集的概率分布尽可能接近原来数据集的概率分布
方法:启发式算法
对于属性子集选择,通常使用压缩搜索空间的启发式算法。它们的策略是做局部最优选择,期望由此导致全局最优解常用的启发式方法:
- 逐步向前选择 选最好添加
- 逐步向前选择 选最差删除
- 向前选择和向后删除的结合 选最好添加并删除最差的
- 判断树归纳 在判定树的每个节点,算法选择“最好”的属性,将数据划分成类
5.4 数据离散化
1. 概念
-
三种类型的属性值:
标称型(无序) 不可比不可加
序数型(有序) 可比不可加
连续型 可比可加 -
常用的离散化方法
- 分箱:属性的值可以通过将其分配到各分箱中而将其离散化
- 基于熵的离散化:通过信息熵度量,实现离散化
- 通过自然划分分段:3-4-5自然划分分段法
- 聚类:聚类算法可以将数据集划分为若干类或组,每个类构成概念层次树的一个节点;每个类还可以进一步分解为若干子类,从而构成更低水平的层次
1.自然划分分段
思想:将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间
自然划分的3-4-5规则常可以将数值数据划分为相对一致和“自然”的区间。一般的,根据最重要的数字上的值区域,递归的和逐层的将给定的数据区域划分为3、4或5个等宽区间。步骤:
- 如果一个区间最高有效位上跨越3,6,7或9个不同的值,就将该区间划分为3个等宽子区间;7 (2,3,2)
- 如果一个区间最高有效位上跨越2,4,或8个不同的值,就将该区间划分为4个等宽子区间;
- 如果一个区间最高有效位上跨越1,5,或10个不同的值,就将该区间划分为5个等宽子区间;
将该规则递归的应用于每个子区间,产生给定数值属性的概念分层;
最高有效位:绝对值最大 看是10的几次方
例如; 252 划分为 [0,300]对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分段时,选用一个大部分的概率空间。e.g. 5%-95%
第6章 概念描述
从数据分析角度,两类DM:描述式数据挖掘、预测式数据挖掘
特征化:提供给定数据集的简洁汇总
比较(区分):提供两个或多个数据集的比较描述6.1 数据概化与基于汇总的特征化
数据概化可以将大量的相关数据从一个较低的概念层次转化到一个比较高的层次
- 方法
数据立方体(或者OLAP方法)
面向属性的归纳方法
- 数据立方体(或者OLAP方法
在数据立方体上进行计算和存储结果
优点:
数据概化的一种有效实现
效率高,能够计算多种不同的度量值
概化和特征分析通过一系列的数据立方体操作完成,如roll-down和roll-up操作
–
数据立方体是数据的多维建模和表示,由维和事实组成
维 — 属性 事实 — 数据
数据立方体聚集定义 — 将n维数据立方体聚集为 n-1 维的数据立方体
–
缺点
维和度量的数据类型有限,数据立方体和OLAP只能处理非数值 类型(离散类型)的维和简单聚集数值类型的度量值
大部分现有商业系统中,只能为非数值类型的维产生概念分层
缺乏智能分析,不能自动确定分析中该使用哪些维,应该概化到哪个层次 - 面向属性的归纳 AOI
基本思想
a. 使用关系数据库查询收集任务相关的数据
b. 属性删除;属性概化
c. 通过合并相等的、概化的广义元组,并累计它们对应的计数值进行聚集操作
d. 通过与用户交互,将广义关系以图表或规则等形式,提交给用户
属性删除:若一个属性(在初始数据集中)有许多不同数值
且1.该属性上没有定义概化操作符 2. 它的较高层概念可用其他属性表示
不重要且可替代属性概化
若一个属性(在初始数据集中)有许多不同数值,且:在该属性上存在概化操作符,则应当选择该概化操作符
有简称用简称大量不同值处理:1. 属性概化阈值控制 2. 概化关系阈值控制
属性概化阈值控制:取值范围一般为2到8,可以是指定的也可以是默认的
如果用户感到一个属性概化达到的层次太高,可以加大阈值(属性下钻);反之,可减小阈值(属性上卷)概化关系阈值控制:控制最后关系/规则的大小
为概化关系设置一个阈值,如果概化关系中不同元组的个数超过该阈值,则应进一步概化;否则,不再概化。
阈值可在数据挖掘系统中预先设定(通常为10~30),或由用户或专家设置、调整
如果用户感到概化的关系太少,可以加大阈值(属性下钻);反之,可减小阈值(属性上卷)面向属性归纳结果的表示方法
- 表格 2. 组合表 3. 图标等等
t-weight(t-权):规则兴趣度度量指标
6.2 属性相关分析
过滤掉统计上不相关或弱相关的属性,而仅保留对手头挖掘任务最相关的属性
1. 属性相关分析的方法
基本思想:对给定的数据集,计算某种度量,用于量化属性与给定的类或概念间的相关性
常用的度量包括信息增益、GINI索引、不确定性和相关系数等信息增益法:
ID3算法 决策树
在ID3算法中,决策节点属性的选择运用了信息论中的熵概念作为启发式函数
在这种属性选择方法中,选择具有最大信息增益的属性作为当前划分节点
通过这种方式选择的节点属性可以保证决策树具有最小的分枝数量,使得到的决策树冗余最小2. 属性相关分析步骤
- 数据收集
- 利用保守的AOI方法进行属性相关分析
- 使用选定的相关分析度量删除不相关和弱相关的属性
- 使用AOI产生概念描述
3. 区分不同的类
- 比较概念描述的步骤
- 数据收集
- 属性相关分析
- 同步概化
- 挖掘结果表示
- 比较概念描述结果的表示
与特征化概念描述类似,比较概念描述也可采用多种形式,如:关系表、组合表、棒图、曲线和规则的形式加以表示
基于规则表示方法
5. 大型数据库中挖掘描述统计度量
关系数据库系统通常提供了5个内置的合计函数:count(), sum(), avg(), max() 和 min()。这些函数可以对数据进行高效运算,仍可用于多维数据的统计度量
除此之外,在许多挖掘任务中,需要了解更多有关数据的中心趋势(central tendency)和数据分布(data dispersion)等数据特点
中心趋势:均值(average)、中位数(median)、模(mode) ;
数据分布:四分位数(quartiles)、方差、标准差等数据离散度的最常用度量是四分位数和标准差
四分位数;数值序下的数据集合的第k个百分位数是具有如下性质的值x:数据项的百分之k在x上或低于x
中间四分位数区间IQR=Q3-Q1
识别孤立点:落在至少高于第三个四分位数或低于第一个四分位数1.5*IQR处的值 - 产生
-
数据仓库与数据挖掘2018-2019年题目,复习资料.zip
2021-05-27 16:02:47山东大学数据仓库与数据挖掘课程往年题,复习资料, 主要看懂PPT内的算法实例,背诵概念题基本就稳了.数据仓库与数据挖掘2018-2019年题目,复习资料.zip -
数据仓库与数据挖掘实例分析.pdf
2021-07-14 15:55:26数据仓库与数据挖掘实例分析.pdf -
数据仓库与数据挖掘.zip
2019-07-11 22:59:32数据仓库与数据挖掘 第一版 - 陈志泊,数据仓库与数据挖掘工程实例-张兴会 2014年9月第一版,附完整书签,和md笔记文件的目录框架。 两份资料都以SQL Server平台讲述。 本文档仅供自学方便考虑,如有质疑或不便,请... -
数据仓库与数据挖掘应用教程课后习题及答案
2020-11-29 15:17:06数据仓库与数据挖掘应用教程课后习题及答案一至十一章和课后习题,清华大学出版社(21世纪高等学校电子商务专业规划教程教材) -
基于数据仓库与数据挖掘的客户关系管理研究.pdf
2021-07-14 16:10:52基于数据仓库与数据挖掘的客户关系管理研究.pdf -
《数据仓库与数据挖掘》课程作业.doc
2021-04-28 00:55:47数据挖掘初学,数据挖掘推荐系统 -
数据仓库与数据挖掘实践
2019-05-09 09:53:14数据仓库与数据挖掘实践 -
数据仓库与数据挖掘实践 高清
2018-04-11 14:20:49本书系统地介绍了数据仓库和数据挖掘技术,全本由两部分组成,第1章到第3章介绍数据仓库的基本概念和相关技术,第4章到第11章介绍数据挖掘的基本概念和各种算法,包括数据仓库构建、OLAP技术、分类方法、聚类方法、... -
数据仓库与数据挖掘脑图总结_by_hql.zip
2020-03-02 11:20:31学习总结内容。。 -
数据仓库与数据挖掘课后习题答案.pdf
2020-08-02 01:51:44数据仓库与数据挖掘 第一章 课后习题 一填空题 1数据库中存储的都是 数据 而数据仓库中的数据都是一些历史的存档的归纳的计 算的数据 2 数据仓库中的数据分为四个级别 早起细节级 当前细节级 轻度综合级 高度综合级 ... -
数据仓库与数据挖掘课件 第一章 数据仓库的基本概念.ppt
2021-09-20 00:37:53数据仓库与数据挖掘课件 第一章 数据仓库的基本概念.ppt -
数据仓库与数据挖掘技术
2016-03-16 09:25:24, 本书适用于高等院校信息管理与信息系统专业、电子商务专业、物流管理专业等相关专业本科生教材,也可作为金融类、管理类有关专业研究生教材,同时,对企事业单位数据仓库与数据挖掘工作人员、研究人员有重要参考... -
数据仓库与数据挖掘技术在卫生信息化中的应用探究.pdf
2021-07-14 13:41:13数据仓库与数据挖掘技术在卫生信息化中的应用探究.pdf -
数据仓库与数据挖掘工程实例
2017-11-23 09:47:33数据仓库与数据挖掘是与计算机、信息类等相关专业的核心课程。本书采用提出问题、分析问题、解决问题的思路,通过工程实例介绍了SQL Server 2005和Weka软件的使用方法以及联机分析处理技术、关联规则方法、决策树... -
数据仓库与数据挖掘 - 陈志泊
2018-05-10 22:09:48主要介绍数据仓库和数据挖掘技术的基本原理和应用方法,全书共分为12章,主要内容包括数据仓库的概念和体系结构、数据仓库的数据存储和处理、数据仓库系统的设计与开发、关联规则、数据分类、数据聚类、贝叶斯网络、... -
数据仓库与数据挖掘(华电)
2018-07-22 20:51:18华北电力大学研究生课程数据仓库与数据挖掘,郑玲老师主讲,木有拷贝她课件的童鞋可以下载下来看看哈。期末考试很有用哈。 -
数据仓库与数据挖掘全套PPT
2018-04-25 09:58:30涵盖数据仓库与数据挖掘课程的全部内容,难得的课件,新手的福音。 -
论文研究-数据仓库与数据挖掘技术的研究与应用.pdf
2019-07-22 17:53:59讨论了数据仓库的构建方法和数据挖掘技术的应用,介绍了使用分析服务器构建数据仓库及进行联机分析的方法,实现了一个利用决策树算法建立模型对顾客的信誉度进行分类的实例。 -
2020年新版数据仓库与数据挖掘课后习题答案.docx
2020-07-05 04:18:53PAGE # 数据仓库与数据挖掘 第一章 课后习题 一填空题 1数据库中存储的都是 数据 而数据仓库中的数据都是一些历史的存档的归纳的计 算的数据 2数据仓库中的数据分为四个级别 早起细节级 当前细节级 轻度综合级 高度... -
数据仓库与数据挖掘课程设计报告书.docx
2020-11-17 08:44:02目录 TOC \o "1-5" \h \z \o "Current Document" 绪论 2 项目背景 2 提出问题 2 \o "Current Document" 2 数据库仓库与数据集的概念介绍 2 数据仓库 2 数据集 3 \o "Current Document" 3 数据仓库 3 数据仓库的设计 ...