精华内容
下载资源
问答
  • 数据仓库数据挖掘的结合 联机事物处理(OLTP) 联机分析处理(OLAP)
  • 数据仓库与数据挖掘教程电子课件完整版(第2版)
  • 数据仓库概述 从传统数据库到数据仓库 计算机数据处理有两种主要方式 事务型处理 分析型处理 传统数据库事务处理 传统数据库是长期存储在计算机内的、有组织的、可共享的数据集合 有严格的数学理论支持,并在...

    数据仓库概述

    从传统数据库到数据仓库

    计算机数据处理有两种主要方式

    • 事务型处理
    • 分析型处理
    传统数据库与事务处理
    • 传统数据库是长期存储在计算机内的、有组织的、可共享的数据集合
    • 有严格的数学理论支持,并在商业领域得到普及应用。
    • 联机事务处理(On-Line Transaction Processing)系统,简称OLTP系统。
    • 数据存储在传统数据库中,成为OLTP数据库
    • 处理特点:实时响应,数据安全性和完整性
    传统决策支持和分析处理
    • 数据的分析:对当前和大量历史数据的统计和分析,并从中提取管理决策所需重要信息的数据处理方法
    • 决策支持系统(Decision Support System,DSS):对数据进行分析处理任务的计算机系统
    • 决策支持:将决策支持系统分析所得到数据信息,提供给企事业董事会或主管领导决策参考的过程
    • 分析型处理系统:决策支持系统的别名,通常需要对大量历史数据进行长时间的分析处理
    • 处理特点:用户对分析处理的时间长度不在意,而对数据分析的深度和广度,以及分析结果的使用价值非常重视
    • 早期分析处理系统开发:在事务处理系统中,直接增加一些统计分析软件或决策支持程序
    传统分析处理的问题

    ① 分析处理的系统响应问题
    事务处理的实时响应修改需求(排它锁)与决策分析需要长时间遍历数据库中大部分甚至全部数据(共享锁)有很大冲突
    ② 分析处理的数据需求问题

    • 外部数据需求问题
      甚至包括竞争对手的相关数据,但传统数据库中只存储了部门内部的事务处理数据
    • 系统平台差异问题
      决策分析的数据通常来自多个处理系统,必须解决不同数据处理系统的差异性问题
    • 数据不一致性问题
      多个处理系统相同属性的取值类型或长度不一致
    • 非结构化数据问题
      决策分析处理的数据集成过程中涉及行业统计报告、咨询公司的市场调查分析数据,其格式可能是Excel,Word或者Web页面等
    • 历史数据需求问题
      决策分析处理需要较长时期的历史数据,而传统数据库一般只保留当前或近期的数据
    • 数据动态更新问题
      决策分析处理需要不断的增加最近几个月,但传统的分析处理系统在对数据进行一次集成以后,往往就与原来的数据源断绝了联系

    ③ 分析处理的多样性问题
    决策分析人员希望能够利用各种工具对数据进行多种方式的处理,并希望数据处理的结果能以商业智能的方式表达出来,不仅要便于理解,而且能有力地支持决策
    ④ 操作型数据与分析型数据的区别
    在这里插入图片描述
    ⑤ 操作型系统与分析型系统的区别
    在这里插入图片描述

    • SDLC(Systems Development Life Cycle)称为系统开发生命周期,即操作型系统遵循需求调查 --> 需求分析 --> 设计&编程 --> 系统测试 --> 系统集成 --> 系统实施
    • Inmon认为,分析型系统开发周期CLDS(Reverse of SDLC)是SDLC逆过程,即DW实施 --> 数据集成 --> 偏差测试 --> 针对数据编程 --> 设计DSS系统 --> 结果分析 --> 理解需求的螺旋式开发过程
    • 但我们从实际应用中发现,还是要进行一定的前期需求调查和系统设计,才能开始DW实施
    事务处理与分析处理系统的分离

    在这里插入图片描述

    数据仓库的定义

    定义1:数据仓库(Data Warehouse,DW)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的,支持管理决策(Decision Making Support)的数据集合

    定义2:数据仓库是一个面向主题的、集成的、不可修改的、随时间变化的支持管理决策数据集合

    因此可以说,数据仓库是一个特殊的数据库,其特殊性体现在它的数据具有面向主题集成不可修改随时间变化等4个特征,其目的是支持企业的管理决策而不是支持事务管理

    数据仓库的4个特征

    数据仓库的数据是面向主题的

    定义3:主题是宏观决策问题的一个分析对象,它由决策分析问题的要求来确定,并用一个在较高管理层次上的综合数据集合来描述

    定义4: 主题是一个在较高管理层次上描述决策分析问题的综合数据集合

    • 从信息管理的角度看,主题是在一个较高管理层次上对数据库系统中数据,按照具体的管理要求重新综合、归类的分析对象
    • 从数据组织的角度看,主题就是一个数据集合,这些数据对分析对象进行了比较完整、一致的描述,不仅描述了数据自身,还描述了数据之间的关系
    数据仓库的数据是集成的
    • 数据集成:根据决策分析的主题需要,把多个异种数据源中的数据收集起来形成一个统一并且一致的数据集合的过程
    • 数据ETL(Extract-Transform-Load,抽取-转换-加载):对数据源数据进行抽取、清理、转换和加载到DW的过程
    • ETL的目的:确保数据仓库数据在属性名称、属性值度量等方面完全一致性
    • ETL主要有两个任务:
      • 消除数据源中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致等
      • 对数据进行综合计算
    数据仓库的数据是不可修改的

    数据仓库的数据都是从事务处理数据源抽取过来的历史数据,因而是不可以修改的,且基于数据仓库的决策分析只有读操作而没有修改操作

    数据仓库的数据是随时间变化的

    主要体现在以下3方面:

    • 数据仓库随时间变化不断增加新的数据内容
    • 数据仓库随时间变化不断删去旧的数据内容
    • 数据仓库中包含有大量的综合数据,且随着时间要求的变化而不断变化

    数据仓库系统

    定义5:数据仓库管理系统(Data Warehouse Manage-ment System,简称DWMS)是位于用户与操作系统(OS)之间的一层数据分析管理软件,负责对数据仓库数据进行统一更新、管理和使用控制,为用户和应用程序提供访问数据仓库的方法或接口软件的集合

    定义6:数据仓库系统(Data Warehouse System,简称DWS)是计算机系统、DW、DWMS、应用软件、数据库管理员和用户的集合

    因此,数据仓库系统一般由硬件软件(包括开发工具)、数据仓库数据仓库管理员等构成

    数据仓库系统体系结构

    在这里插入图片描述

    数据来源

    数据仓库系统的数据源,包括内部的OLTP数据库、OA数据和外部的市场信息、竞争对手信息,以及政府统计数据和其它有关文档

    数据获取

    从数据源中抽取数据,集成数据,预处理后转换成数据仓库对应的数据格式,并将其加载到数据仓库之中

    数据管理

    对数据仓库数据,元数据和数据集市的存储管理,包括数据存储、数据的安全性、一致性和并发控制管理、以及数据的维护、备份和恢复等管理功能,由DWMS负责

    • (企业级)数据仓库:包含从企业所有可能的数据源抽取得到的明细数据汇总数据
    • 数据集市(Data Mart,DMt)是企业级数据仓库的一个子集,通常称之为部门级数据仓库
    • 元数据(Meta Data):“关于数据的数据”,即描述其它数据的基础数据。按其用途可将分为两种类型
      • 技术元数据(Technical Metadata)是关于数据源、数据转换和数据仓库的描述,如数据对象和数据结构的定义、数据清理和数据更新的规则、元数据到目的数据的映射、用户访问权限等。供数据仓库设计和管理人员使用,又称为管理元数据(Administrative Metadata)
      • 商业元数据(Business Metadata):用商业术语描述数据仓库中的数据,包括对业务主题、数据来源和数据访问规则,各种分析方法及报表展示形式的描述,以便使数据仓库管理人员和用户更好地理解和使用数据仓库。也被称为用户元数据(User Metadata)
    • 元数据的作用
      • 为决策支持系统分析员和高层决策人员服务提供便利。如广义索引(元素据)存放的有关决策汇总数据项
      • 解决操作型环境和数据仓库的复杂映射关系。如数据源的项名、属性及其在数据仓库中的转换
    • 元数据的使用
      • 元数据在数据仓库开发期间的使用。元数据主要描述DW目录表的每个运作模式,数据的转化、净化、转移、概括和综合的规则与处理规则
      • 元数据在数据源抽取中使用。利用元数据确定将数据源的哪些资源加载到DW中;跟踪历史数据结构变化过程;描述属性到属性的映射、属性转换等
      • 元数据在数据清理与综合中的使用。数据清理与综合负责净化资源中的数据、增加资源戳和时间戳,将数据转换为符合数据仓库的数据格式,计算综合数据的值
    数据应用
    • 通过数据分析工具、数据挖掘工具和其它应用程序来使用DW中的数据
    • 数据仓库技术本身并不提供对数据仓库进行分析的技术和工具,用户一般可以根据需要,自行开发或委托软件公司开发合适的决策分析工具
    数据用户

    企业中高层管理者和决策分析人员。正是因为有了使用它的用户,数据仓库才真正体现出它的价值

    数据仓库数据的粒度与组织

    数据的粒度
    • 数据仓库的数据单元中所保存数据的综合程度数据的综合程度越高,其粒度也就越粗。反之,数据的综合程度越低,其粒度也就越细
    • 数据粒度越细,则占用的存储空间越大,但可以提供丰富的细节查询,反之,占用存储空间小,却只能提供粗略的查询
    • 数据的粒度选择是否恰当,不仅对数据仓库中数据量的大小有直接影响,同时还影响数据仓库所能回答的查询类型和查询深度
    • 在数据仓库设计时,数据粒度的大小需要依据数据量的大小与查询的详细程度之间做出权衡
    双重粒度

    指数据仓库中仅存放真实细节数据(最低粒度)和轻度的综合数据

    数据仓库数据的粒度层级
    • 在数据仓库设计时,通常可以将数据按照3重粒度级别4个层次的存储方式,即将数据分为早期细节层当前细节层轻度综合层高度综合层等4个层级
    • 数据源经过最低粒度级别的综合进入当前细节层,并根据具体需要进行更高一层的综合,从而形成轻度综合层乃至高度综合层的数据。
    • 示例
      在这里插入图片描述
    数据仓库的数据组织
    • 简单堆积文件:将每日从OLTP数据库中提取转换加工得到的数据逐天积累存储起来形成一个数据文件
    • 轮转综合文件:数据存储单位被分为日、周、月、年等几个粒度级别

    数据挖掘概述

    数据挖掘产生的背景

    • 信息化社会产生出海量的数据,并形成具有巨大潜在价值的“大数据”,犹如蕴藏大量“黄金白银”的矿山
    • 信息提取及其处理技术的相对落后,使世界陷入了“数据丰富、知识贫乏”的境地
    • 1989年第11届国际联合人工智能学术会议上首次提到数据库中的知识发现(Knowledge Discovery in database,KDD) 的概念
    • 它把数据库“数据”比喻为矿山,将“数据挖掘(Data Mining,DM)”作为开采工具,因此,“数据挖掘”一词很快流传开来,成为信息技术领域的研究热点
    • 数据挖掘和知识发现作为一种知识自动提取技术,涉及机器学习、模式识别、统计学、数据库和人工智能等众多学科领域,以及信息技术的支撑

    数据挖掘与知识发现

    定义6知识发现(KDD)就是采用有效算法大量的、不完全的、有噪声的、模糊和随机的数据识别有效的、新颖的、潜在有用乃至最终可理解的模式(Patterns)的非平凡过程

    数据挖掘的数据来源

    数据库类型的数据
    • 传统数据库(DB)是数据挖掘最常见、最丰富的数据来源之一
    • 数据仓库(DW)是从多个数据源,经过抽取-转化-集成(ETL)后加载到数据库中,用于支持管理决策的数据集合
    • 空间数据库(Spatial Database),如地理信息数据、遥感图像数据等
    • 时态数据库和时间序列数据库(Temporal Database and Time-Series Database)
      • 时态数据库通常存放与时间相关的属性值,如个人简历信息与时间相关的职务、工资等个人信息
      • 时间序列数据库存放随时间变化的值序列,如股票交易数据、气象观测数据等
    • 多媒体数据库(Multimedia Database)是存储有图形(Graphics)、图像(Image)、音频(Audio)、视频(Video)等
    • 文本数据库(Text Database),包括无结构类型(大部分的文本资料和网页)、半结构类型(XML数据)、结构类型(如关系数据库),OA系统使用文本数据库
    非数据库类型数据
    • 数据流(Data Stream):大量、高速、连续到达的,潜在无限的有序序列数据。如网络监控、网页点击流、股票交易、流媒体和传感器网络等产生的数据
      • 数据处理特点:数据一经处理,除非特意保存,否则不能被再次读取处理,或再次读取数据的代价十分昂贵
      • 数据流处理的实时性要求,是它与传统数据库在存储、查询、访问等方面的最大区别
    • Web数据:互联网上的数据
      • 互联网上的部分数据存储在数据库之中,但更多的数据并不是存储在数据库之中,故将Web数据作为非数据库类型

    数据挖掘的任务

    分类分析(Classification Analysis)
    • 通过分析已知类别标记的样本集合(示例数据库)中的数据对象(记录),为每个类别做出准确的描述,或建立分类模型,或提取出分类规则(Classification Rules)
    • 然后用这个分类模型或规则对样本集合以外的记录进行分类
    聚类分析Clustering Analysis)
    • 根据给定的某种相似性度量标准,将没有类别标记的数据库记录集划分成若干个不相交的子集(簇),使簇内的记录之间相似度很高,而不同簇的记录之间相似度很低
    • 聚类分析可以帮助我们判断,数据库中记录划分成什么样的簇更有实际意义,在客户细分、定向营销、信息检索等领域广泛应用

    聚类与分类是容易混淆的两个概念

    • 分类问题是有指导的示例式学习,即每个记录预先给定了类别标识,分类分析就是找出每个类别标识的描述,即满足什么条件的记录就一定是什么类别的判断规则
    • 聚类问题是一种无指导的观察式学习.每个记录没有预先定义的类别标识,聚类分析就是给每个记录指定一个类别标号
    关联分析(Association Analysis)
    • 关联分析最初是针对购物篮分析问题而提出的,其目的是发现交易数据库中商品之间的相互联系的规则,即关联规则(Association rules)
    • 关联分析主要用于市场营销、事务分析等领域
    序列模式 (Sequential Patterns)
    • 数据间的前后序列关系,包括相似模式发现、周期模式发现等
    • 主要应用于客户购买行为模式预测、疾病诊断、防灾救灾、Web访问模式预测和网络入侵检测等领域
    离群点检测(0utlier detection )
    • 离群点(0utlier)是一个数据集中过分偏离其它绝大部分数据的特殊数据
    • 离群点检测就是希望从数据集中发现这种与众不同的数据,已在银行、保险、电信、电子商务等行业的欺诈行为检测中得到广泛应用,比如银行的反洗钱检测系统,互联网的入侵检测系统等
    统计分析(Statistical Analysis)
    • 运用统计方法,结合事物相关的专业知识,从描述事物的数据上去推断该事物可能存在的内在规律
      • 聚集统计: 计数、求和、求平均值、求最大值和最小值
      • 回归分析,比如线性回归分析、非线性回归分析、多元线性和非线性回归分析等
      • 判别分析:贝叶斯判别、费歇尔判别、非参数判别等
      • 探索性分析,如主元分析、相关分析等等
    新型挖掘任务

    物联网、传感网络,卫星通讯和GPS导航导致许多新的数据类型和数据形式,加之量子计算等新理论,由此产生许多新型数据挖掘任务,如文本数据挖掘、web数据挖掘、微博数据挖掘、空间数据挖掘、数据流挖掘、不确定性数据挖掘和量子数据挖掘等

    数据挖掘的步骤

    在这里插入图片描述

    问题定义

    弄清楚需要哪些方面的数据(也称为数据选择)以及希望挖掘出什么样的知识,即确定挖掘任务

    数据准备
    • 数据抽取,从各种可用数据源中抽取与挖掘任务相关的数据
    • 预处理,包括消除噪声、补充缺损值数据、消除重复记录、转换数据类型(连续型数据转换为离散型数据,或与之相反)等
    • 数据存储,即把经过预处理的数据,按照数据挖掘任务和挖掘算法的要求集成起来,重新组织并以数据库或数据文件等恰当的方式存储,作为数据挖掘的对象

    当挖掘对象是数据仓库时,一般就不需要数据准备工作了
    通常数据挖掘的数据源有多种类型(关系数据库、XML数据库、Web页面和文本文件),因此,数据准备是数据挖掘中十分重要、也是费时最多的一个步骤,可以占到整个数据挖掘过程70%左右的时间

    挖掘实施

    选定数据挖掘算法,编写应用程序或使用商品化挖掘工具的功能模块,从数据挖掘对象中挖掘出用户可能需要的知识或模式,并将这些知识或模式用一种特定的方式,比如表格、图形等可视化方法表示

    评估解释
    • 挖掘人员、企业高管和领域专家,对发现的知识或模式进行评估剔除冗余或无关的模式,并对余下的知识或模式进行解释发现并理解其中有实际应用价值的知识
    • 如果挖掘出来的知识无法满足用户的要求,就需要开始新一轮的数据挖掘,或者回到前面的某一步重新开始
    知识应用

    将经过评估解释,且被用户理解的知识,用于商业决策

    数据挖掘的应用

    在金融行业的应用
    • 对账户进行信用等级的评估
    • 对庞大的数据进行主成分分析,剔除错误矛盾的数据杂质,有效地进行金融市场分析和预测
    • 分析信用卡的使用模式,“什么样的人使用信用卡属于什么样的模式”
    • 从股票交易的历史数据中得到股票交易的规则或规律
    • 探测金融政策与金融业行情的相互影响的关联关系
    在保险行业的应用
    • 保险金额度的确定。通过数据挖掘可以得到,对不同行业的人、不同年龄段的人、处于不同社会层次的人,他们的保险金额度应该如何确定
    • 险种关联分析。分析购买了某种保险的人是否会同时购买另一种保险
    • 预测什么样的顾客将会购买什么样的新险种
    在零售业中的应用
    • 分析顾客的购买行为和习惯。如“顾客一般购买了野营帐蓬后,过了一段时间就会购买睡袋和背包”
    • 分析销售商品的构成。将商品分成“畅销且单位赢利高”、“畅销但单位赢利低”,“畅销但无赢利”,“不畅销但单位赢利高”、“不畅销且单位赢利低”,“滞销”等多个类别,找出“满足什么条件的商品属于哪一种情况”
    在客户关系管理中的应用
    • 客户细分。对大量的客户分类,提供针对性的产品和服务
    • 客户流失和保持分析。从已流失客户数据找出客户属性,服务属性和客户消费数据与客户流失的最终状态关系
    • 价值客户判断。将客户分为目前利润贡献大的“成熟期”;当前利润贡献少但未来增长大的“成长期”;当无利润贡献,为后续增长引擎的“开拓期”等几类
    • 客户满意度分析。客户满意度与客户忠诚度密切相关,随着客户满意度的增加客户忠诚度也随之增加。所以,企业与客户交往的目标就是尽可能的增加客户满意度
    在信息领域中的应用
    • 网络信息安全保障。利用数据挖掘技术对网络的入侵检测数据进行分析,可从海量的安全事件数据中提取出尽可能多的潜在威胁信息特征,从而发现未知的入侵行为
    • 互联网信息挖掘。利用数据挖掘技术,从与Web相关的资源和行为中抽取用户感兴趣的、有用的模式和隐含信息
      • Web结构挖掘。Web文档之间的超级链接结构反映了文档之间的包含、引用或者从属关系。利用挖掘算法,分析Web页面之间的链接引用关系,识别出权威页面和非法链接等
      • Web使用挖掘。对网络日志文件和用户浏览等Web使用行为的分析,可以深层次挖掘出用户的兴趣爱好,并建立用户兴趣模型,以便为用户提供个性化服务,如智能搜索、网页或个性化商品推荐等
      • Web内容挖掘。就是对Web页面内容以及后台交易数据库进行挖掘,从中获取有用知识或模式的过程
    在其它行业中的应用
    • 生物信息或基因数据挖掘
    • 数据挖掘在医学中的应用
    • 其它高科技研究领域
    • 社会科学研究领域

    数据仓库与数据挖掘

    数据仓库与数据挖掘的区别

    在这里插入图片描述
    数据仓库不是为数据挖掘而生的,反过来数据挖掘也不是为数据仓库而活的。它们是支持决策的两个相对独立的知识体系

    数据仓库与数据挖掘的联系

    大部分教材都取名《数据仓库与数据挖掘》,足见二者的联系是十分紧密的。数据仓库(DW)和数据挖掘(DM)都是为决策支持而提出的,其联系可以概括为以下几个方面:

    • DW为DM提供了更好的、更广泛的数据源。因为DW存有来自企业内部和外部较长时间的历史数据
    • DW为DM提供了新的数据支持平台。DW的只读方式,集成更新专门的机制(ETL)保证DM效率更高
    • DW为DM提供了方便。无需自己动手抽取集成数据
    • DM为DW提供了更好的决策支持工具。DW无决策工具
    • DM为DW的数据组织提出了更高的要求。DW不仅满足OLAP需要,还应满足DM的需要
    • DM为DW提供了广泛的技术支持

    一个中心(决策支持),两个基本点(DW,DM)

    展开全文
  • 数据仓库与数据挖掘 第一章 课后习题 一填空题 1数据库中存储的都是 数据 而数据仓库中的数据都是一些历史的存档的归纳的计 算的数据 2 数据仓库中的数据分为四个级别 早起细节级 当前细节级 轻度综合级 高度综合级 ...
  • 数据仓库数据挖掘的数据通常来自多种数据库或计算机应用系统或数据文件、web页面 多数据源在集成的问题 数据不一致:数据的不一致性主要指数据之间的矛盾性和不相容性。如职务升迁了,但工资数据却没有改变 属性...

    数据仓库原理

    多数据源问题

    多数据源

    数据仓库和数据挖掘的数据通常来自多种数据库或计算机应用系统或数据文件、web页面

    多数据源在集成的问题
    • 数据不一致:数据的不一致性主要指数据之间的矛盾性不相容性。如职务升迁了,但工资数据却没有改变
    • 属性差异:性别属性有的取“男”/“女”,长度为2;有的取“1”/“0”,长度为1
    • 数据重复:数据源中存在两条或多条完全相同的记录,或者同一个数据冗余地存在于多个数据源中
    • 数据不完整:某些属性的值可能是缺失的,甚至是错误的数据
    • 噪声数据:噪声是指测量数据时遇到的随机或其它不确定性因素,它导致被测量的数据产生了偏差或错误,称这种含有偏差或错误的数据为噪声数据
    • 高维数据:为较全面的描述实体,原始数据通常都使用了较多属性
    • 模式不统一:将集成为单一数据集的多个数据源的模式不同
    • 数据不平衡:数据集中某一类样本的数量明显少于其它类型样本的数量

    数据预处理

    • 数据预处理(data preprocessing):在多数据源集成为统一数据集之前进行的数据清洗数据变换数据规约等数据处理过程
    • 预处理的目的:消除多数据源集成存在的问题,为数据仓库或数据挖掘提供一个完整、干净、准确、且有针对性的数据集合
    数据清洗
    • 数据清洗(Data cleaning)
      发现并纠正数据源,即原始数据中存在的问题或错误的过程,包括检查数据一致性,处理无效值、填补缺失值,以及过滤掉那些不符合要求的数据

      • 属性的处理:对多数据源含义相同的属性进行重命名统一类型长度,选择设置主键派生属性等处理
        • 重命名属性:对数据仓库或数据挖掘需要的属性重新赋给它们含义明确,便于理解记忆和使用的属性名称
        • 统一属性:确保多个数据源中对同一实体特征的描述是统一的,包括属性的长度、类型,还有属性的值域
        • 处理主键属性:为建立挖掘结果和原始数据之间的直接对应关系的话,需要保留主键属性
        • 派生新属性:由日期属性派生出年、季、月、周、日等多个时间层次的时间属性
        • 选择相关属性:如果属性X的值可以由另外一个或多个属性值计算出来,称属性X和这些属性是相关的
    • 空值的处理
      对原始数据中没有登记或没有输入的属性值——空值,使用某种对其进行补充或删除等预处理

      • 人工填补:优点是能够得到比较真实的数据,但通常人力耗费很大,而且速度较慢
      • 忽略记录:即将有空值的记录删除
      • 忽略属性:删除具有空值的列,即不将其作为数据仓库或数据挖掘对象集的属性
      • 使用默认值:对离散空值用一个固定的常数unknown或者*来填补
      • 使用平均值:对于连续属性空值用所有非空值的平均值来填补
      • 使用预测值:用一定的预测方法,计算得到空值属性最有可能的取值
    • 数据噪声处理

      • 数据噪声(Data Noise)
        一种难于解释的数据剧烈变动,它导致一组数据中某些数据与组内其它数据出现了极大的偏差
        • 分箱(binning):把数据集中所有数据放入不同箱子(区间)的过程称为分箱
      • 分箱技术的步骤
        • 对数据集的数据进行排序
        • 确定箱子个数k、选定数据分箱的方法并对数据集中数据进行分箱
        • 选定处理箱子数据的方法,并对其重新赋值
      • 常用分箱方法
        • 等深分箱等宽分箱自定义区间最小熵分箱法

    等深分箱法
    把数据集中的数据按照排列顺序分配到k个箱子中(k=1,2,…,k)

    • 当k整除n时,令p=n/k,则每个箱子都有p个数据,即
      • 第1个箱子的数据为:a1,a2,…,ap
      • 第2个箱子的数据为:ap+1,ap+2,…,a2p
      • 第k个箱子的数据为:an-p+1,an-p+2,…,an
    • 当k不能整除n时,令p=n/k (向下取整),q=n-k*p,则可让前面q个箱子有
      p+1个数据,后面k-q个箱子有p个数据,即
      • 第1个箱子的数据为:a1,a2,…,ap+1
      • 第2个箱子的数据为:ap+2,ap+3,…,a2p+2
      • 第k个箱子的数据为:an-p+1,an-p+2,…,an
    • 也可让前面k-q个箱放p个数,后面q个箱放p+1个数据

    例题:
    在这里插入图片描述


    等宽分箱法
    把数据集最小值最大值形成的区间分为k个左闭右开的子区间(最后一个除外)I1,I2,…,Ik。如果 ai属于Ij 就把数据ai放入第j个箱子
    例题:
    在这里插入图片描述


    用户自定义区间
    当用户明确希望观察某些区间范围内的数据分布时,可以根据实际需要自定义区间,方便地帮助用户达到预期目的

    • 数据平滑:对每个箱子中数据进行单独重新赋值
    • 三种常见方法:按平均值、按边界值和按中值平滑
      按平均值平滑。对同一个箱子中的数据求平均值,并用这个平均值替代该箱子中的所有数据,其余同理
    • 不平衡数据处理
      • 过抽样(oversampling)
        • 在样本集中通过增加少数类的样本来提高少数类样本的数量
        • 最简单的办法是复制少数类样本
        • 这种方法的缺点是引入了额外的训练数据,会延长构建分类器所需要的时间,没有给少数类增加任何新的信息,而且可能会导致过度拟合
      • 欠抽样(undersampling)
        • 该方法通过减少多数类样本的数量来提高少数类样本在样本集中的比例
        • 最简单的方法是通过随机方法,去掉一些多数类样本来减小多数类的规模
        • 这种方法的缺点是会丢失多数类样本的一些重要信息,已有的信息利用得不够充分
    数据变换
    • 数据聚集
      • 对数据按照管理或挖掘需要进行汇总
      • 比如:如果希望分析客户的经济背景情况对购买能力的影响,只需要关心客户消费的金额,而不需要了解客户购买了什么商品以及商品的数量、价格等信息
    • 数据概化
      • 用较高层次的数据代替较低维度层次的数据称为数据的概化(data generalization),也翻译为数据概括
      • 比如用“时”或“日”的数据来替换“秒” 和“分”的数据
    • 数据规范化
      将原始数据按照一定的比例缩放,使之落入一个特定的区间

    方法有如下几种
    在这里插入图片描述


    在这里插入图片描述


    在这里插入图片描述

    数据归约

    数据归约(data reduction)(也称为数据约简):用精简数据表示原始数据的方法,且归约后数据量通常比原始数据小很多,但具有接近甚至等价于原始数据表达的信息

    • 维归约(dimensionality reduction)
      减少描述问题的随机变量个数或者数据集的属性个数,后者又称属性约简(attributes reduction)
    • 数量归约(numerosity reduction)
      用较少的数据表示形式替换原始数据
    • 数据压缩(data compression)
      使用变换方法得到原数据的归约或“压缩”表示,图像压缩技术就是一种典型的数据压缩方法

    E-R模型

    E-R模型中的基本概念
    • 实体(Entity):客观存在并可相互区别的事物
    • 属性(Attribute):描述实体的每一个特征。姓名、性别
    • 关键字(Key):能唯一地标识实体集中每个实体的属性集合称为关键字或者码
    • 联系:实体之间的联系(Relation),有3种类型
      • 一对一 (1:1)
      • 一对多(1:n)
      • 多对多(m:n)
    E-R图的要素
    • 实体(集、型):用矩形表示,矩形框内写明实体名
    • 属性:用椭圆形表示,并用无向边将其与相应的实体连接起来
    • 联系:用菱形表示,菱形框内写明联系名,并用无向边分别与有关的实体连接起来,同时在无向边的旁边标上联系的类型
      • 如果一个联系具有属性,则这些属性也要用无向边与该联系连接起来
      • 联系的类型: (1:1),或(1:n),或(m:m)
      • 举例:在这里插入图片描述

    数据仓库的概念模型

    • 概念数据模型(Conceptual Data Model,简称概念模型):对现实管理决策中各个主题及其特征的数据抽象表示
    • 概念模型应具有特点
      • 能够比较真实地模拟或抽象表示用户的决策主题
      • 表示方法简单直观且易于用户理解
      • 与计算机系统支持的具体数据模型无关
      • 易于向数据仓库的逻辑数据模型转换
    • 学术研究的概念模型
      • 数据锥体(Data Cube)模型
      • 维事实模型DFM(Dimensional Fact Model)
      • StarER模型
      • 多维模式CMS (Conceptual Multidimensional Schema)
      • 扩展ER模型
      • DWER模型

    但还没有学术界和工程应用领域普遍接受的DW概念模型

    多维数据模型

    定义1:称A (维度1,维度2,…,维度n ;变量1,…,变量k) 是一个名称为A的n维数组,也称A为n维超立方体(Hypercube)或多维数据模型(多维模型)


    例如:某市公安局拟建立警务数据仓库,需要从入住时间、旅客来源和宾馆辖区三个不同的角度,统计分析来该市城区登记入住宾馆的人次,其多维数据模型为:
    Hotel(入住时间,旅客来源,宾馆辖区;入住人次)

    多维数据模型通常用于描述决策分析的一个主题框架

    • 变量
      • 决策分析的度量指标,一个描述数据实际意义的名称
      • 它描述数据“是什么”,即已经发生过的事实(Fact)
      • 变量的取值为连续型实数,如企业“销售收入”,“管理成本”,旅客入住宾馆的 “入住人次”,“人均天数”等
    • 维度
      • 决策分析人员观察数据(度量指标、事实)的一个特定角度称为维度,也简称维
      • 例如,时间、地理就是两个不同的维度
    • 维的层次
      • 决策分析人员在某个维度上观察数据(度量指标)时需要的细节程度称为维的层次,也称作维的级别
    • 维成员
      • 维成员就是一个维度在某个维层次上的一个具体取值
    • 多维数据集
      • 多维数组的每个维度都指定了确定的维成员、且每个变量对应于每个维成员都赋予了具体的数值,就称一个多维数据集
    • 数据单元(单元格)
      • 多维数据集指定维成员后对应变量值的一个存储空间。因此,每个单元格描述了一个确定的事实
    • 多维数据集的两种结构
      • 超立方体结构(Hypercube):描述一个决策主题的三维或更多维数组,且每个维彼此垂直,数据空间的各个单元格都取定了相同层次的维成员
      • 多立方体(Multicube) 结构:用若干个较小的超立方体结构表示一个大的超立方体结构
    维度与粒度
    • 数据的粒度是指数据仓库的数据单元中所保存数据的综合程度。数据的综合程度越高,其粒度就越粗。反之,数据的综合程度越低,其粒度也就越细
    • 多维数据集数据的粒度与维的层次是两个联系密切,而且内涵一致的概念,即维的层次刻画了数据的粒度,维的层次越低,数据的粒度就越小,反之,维的层次越高,数据的粒度就越大
    • 数据粒度设计深刻地影响存放在数据仓库中数据占用存储空间的大小和所能回答的查询类型。数据粒度小,即维的层次低可以回答许多细节的查询需求,但占用过多的存储空间。

    数据仓库的逻辑模型

    • 逻辑数据模型(Logical Data Model)是用户从数据仓库管理系统中所看到的、具体的DWMS所支持的数据模型
    • 商品化的数据仓库管理系统(DWMS)产品中,主要有两大类可供用户选择
      • 基于关系模型的数据仓库管理系统(Relational DWMS, RDWMS),如SQL Server、Oracle、DB2等
      • 基于多维模型的数据仓库管理系统,称为多维数据库管理系统(Multi-Dimensional DataBase Management System,NMDDBMS),也称纯多维数据库管理系统
    多维模型

    若用纯多维数据库管理系统作为DW的管理平台,则多维数据模型既是数据仓库的概念模型,又是数据仓库的逻辑模型,而多维数据集都存储在多维数据库中

    • 多维数据库
      多维数据库(Multi-Dimesional DataBase,简称是长期存储在计算机内的、可共享的多维数据集合
      MDDB将所有数据都以n维数组的形式存储

    • 多维数据库管理系统
      多维数据库管理系统是位于用户与操作系统之间的一层数据管理软件,负责对多维数据库进行统一管理和控制,并为用户和应用程序提供访问多维数据库的方法等

    • 纯多维数据库管理系统Caché
      Caché是美国Intersystems公司推出的一款纯多维数据库管理系统,是一种面向对象的多维数据库管理系统,并支持SQL的访问方式
      在美国和欧洲的HIS系统(Hospital Information System)中,使用Caché多维数据库管理系统所占的比例是最大的,被医疗界公认为首选数据库
      哈尔滨医科大学第一临床医学院2007年实施了基于Caché的HIS系统
      特点:

      • 速度快
      • 使用简单
      • 接口容易
      • 对象型编辑
      • 真正C/S的3层结构
      • 灵活性,可不经修改便能在多种操作系统平台上运行
      • 支持WEB开发
      • 价格便宜
    • 多维数据库存储
      多维数据集用超立方体结构(Hypercube),或多立方体结构(Multicube)表示,因此,采用纯多维数据库管理系统(MDDBMS)来存储和管理多维数据集是一种理想的方法

    • 多维数据库存储的优点
      多维数据库存储多维数据集,其数据显示直观、计算处理效率高,特别便于汇总

    • 多维数据库存储的缺点

      • 增加维度操作麻烦:超立方体(3维)建立前必须确定各个维度及其层次关系。但建立后若要增加一个新的维度,就要重建立新的超立方体(4维)
      • 维度增多引起灾难:超立方体随着维度的增多,其数据量呈指数增长,有可能导致数据文件超过操作系统文件空间上限
      • 实时细节数据缺乏:超立方体存储的都是前期抽取的汇总级别数据,缺乏事实细节数据
    星形模型
    • 若用户选择RDWMS产品,多维数据集就必须按照关系模式组织数据,存放在基本表中
    • 星形模型由一个事实表多个维度表的连接表示多维数据模型,其中矩形表示事实表,凹圆角矩形表示维度表,并用直线表示其间的主键-外键联系
    • 星形模型是多维数据模型在关系数据库中的组织和存储结构描述,即它是多维数据模型的关系模型表示方法。因此,星形模型是多维数据模型的一种逻辑模型

    在这里插入图片描述

    1. 事实表
      事实表是星型模型结构的核心,它至少应包含两个部分,一是多维数据模型的事实(变量),也就是度量指标值另一个是由主键和若干外键
      事实表可以通过外键与维度表的主键连接,帮助用户理解度量指标值的实际意义,还可以按照维度表中维度层次进行各种统计和分析

    2. 维度表
      维度表就是存放多维数据模型维度信息的基本表,它也包括两个部分,一个是主键,并作为外键存放在事实表中。另一个是维度名称和维层次等细节信息,它为事实表中的每个事实提供了详细的描述信息


    例如:
    在这里插入图片描述

    • 星形模型的优势
      • 星形模型围绕一个确定的主题, 体现了数据仓库对数据结构和组织的要求
      • 星形模型表达直观,易于理解且设计相对容易
      • 星形模型维度表包含了用户经常查询和分析的属性,优化了对数据库的浏览,在维度表和事实表之间没有任何“迷宫 ”,使查询的过程变得简单而直接
      • 星形模型为OLAP提供了良好的工作条件,使OLAP能通过星形连接和星形索引,显著提高查询性能
      • 设计相对较为简单,因为不用考虑关系模式规范化化问题
    • 星形模型的不足
      • 维度表通常是非规范化的,造成很大的数据冗余
      • 由于星形模型中各个维度表主键的组合构成事实表的主键,导致维度的变化非常复杂、费时
      • 维度属性的复杂形成的大维度问题,比如长文本字段占用存储空间,维度数据不易更新和维护,大维度表填充数据难度增大
      • 处理维的层次关系比较困难,特别当维的属性复杂时
      • 无法表达“多对多”的联系
    雪花模型

    雪花模型是星形模型按照关系数据库规范化理论对维度表进行分解的结果。其目的是消除数据冗余,同时增加更多对事实进行细节描述的信息,提高查询分析的灵活性。但其查询效率通常比星型模型表示的多维数据集要低一些

    在这里插入图片描述

    • 雪花模型优势
      • 减少了一定数据冗余量,节约了许多存储空间
      • 处理复杂维度和更新维度更加容易
      • 表示“多对多”的联系方便
      • 查询分析更具灵活性
    • 雪花模型的不足
      • 事实表与维度表、详细类别表联系比较复杂,用户不易理解
      • 浏览查询多维数据内容相对困难
      • 额外的详细类别连接操作导致查询性能下降

    数据仓库的物理模型

    物理数据模型(Physical Data Model),是描述数据在存储介质上组织结构的数据模型,它不但与具体的DBMS有关,而且还与操作系统和硬件有关,是机器世界物理层次的数据模型

    位图索引模型
    • 重要实用:在数据仓库的存储结构中,位图索引是一项非常重要且实用的索引模型
    • 索引条件:对于那种只取少量几个离散值的属性列(属性取值种类在1%以下)来说,位图索引就是用一个二进制串,代替基本表中某一列的取值
    • 索引效果:使我们在不触及数据记录的情况下,直接通过位图索索引而快速地获得查询结果
    • 位图索引总结
      • 由于位图索引为二进制串,占用空间少且仅仅涉及位的逻辑运算,在内存中可实现快速运算,并提高查询效率
      • 位图索引用于类别统计也非常高效,比如,在户籍登记表中要统计已婚人员数量,只需要统计“已婚”位图索引中1的个数即可,而不需要读取登记表的每一条记录来逐一判断累加
      • 位图索引的适用条件:属性取值种类占总记录数的1%以下就比较适合创建位图索引
    广义索引模型
    • 广义索引:决策分析人员最关心而且经常需要查询的、关于数据仓库的一些统计数据
    • 索引目的:提高数据的查询速度
    • 创建方法:从操作型数据环境抽取数据并向数据仓库中装载的同时,可以根据用户的需要建立各种广义索引,而每一次向数据仓库追加数据时,就重新生成或更新这些广义索引的内容。这样就无需为建“广义索引”而重新去扫描数据仓库
    • 创建条件:对于一些经常性的统计数据查询,如果预先建立了“广义索引”,就可直接通过直接查询广义索引来代替对事实表的查询,其查询速度显然要比直接查询事实表要快很多
    连接索引模型
    • 连接索引:事实表和维度表中满足连接条件的元组主键形成的索引项,并保留在数据仓库系统之中
    • 索引使用:每当需要将事实表和维度表进行连接运算时,就直接利用连接索引项的指针进行连接运算
      • 设有关系R(Rid,A,B,C,D)和S(Sid,W,X,Y,Z),有1000条记录,其中Rid和Sid分别是主键
      • 它们的全连接为RS(Rid,Sid,A,B,C,D,W,X,Y,Z) 有10个属性,100万条记录的大表
      • 它们的连接接索引由两个主键属性形成的索引项(Rid,Sid)构成,虽然也有100万条记录,但显然比全连接结果要小得多
    RAID存储结构
    • 数据仓库这种大数据的存储问题,可以选用RAID(Redundant Array of Inexpensive Disk)技术支持的廉价冗余磁盘阵列
    • 虽然RAID磁盘阵列包含多块磁盘,甚至几百块磁盘,但是在操作系统下是作为一个独立的大型存储设备进行管理的
    • RAID技术分为RAID0、1、2、3、4、5,6,7等几个不同的等级标准,RAID0又可以配合后面几种进行更多的功能组合,形成RAID10、30、50等工作方式。这些等级标准分别为用户提供了速度、价格、容量和安全性不相同的磁盘阵列的多种选择
      • RAID0,又称为磁盘条带化(Striping)工作方式
      • RAID1,又称为镜像(Mirroring)工作方式
      • RAID10(或者叫RAID0+1) 也可以简单的理解成两个分别由多个磁盘组成的RAID0阵列再进行镜像
      • 由于RAID2是一种比较特殊的专用RAID模式,与现有的磁盘驱动器不兼容,因实现成本比较高,目前还没有实际应用
      • RAID3 是在RAID 2 基础上发展而来的,采用并行传输及校验工作方式(Parallel transfer with parity)。主要的变化是用相对简单的异或逻辑运算(XOR, eXclusive OR)校验代替了相对复杂的汉明码校验,从而大幅降低了成本
      • RAID4采用带奇偶的条块化工作方式,它是RAID0和RAID3工作方式的结合,也称为具有共享校验硬盘的独立数据硬盘 (Independent Data disks with shared Parity disk),I/O传输率比RAID3高,但磁盘空间利用率比RAID0低
      • RAID 5是目前应用最广泛的RAID技术。各块独立硬盘进行条带化分割,相同的条带区进行奇偶校验(异或运算),校验数据平均分布在每块硬盘上。以n块硬盘构建的RAID 5阵列可以有n-1块硬盘的容量,存储空间利用率非常高
      • RAID6允许两块硬盘同时故障的情况发生
      • RAID7称为最优的异步高I/O速率和高数据传输率磁盘(Optimized Asynchrony for High I/O Rates as well as High Data Transfer Rates),可以理解为一个独立的存储计算机,它自己的操作系统,有自己的处理器,有自己的总线,而不是通过简单的插卡就可以实现的
    展开全文
  • 数据仓库与数据挖掘教程(第2版)第八章集合论方法.pptx
  • 粗糙集方法的规则获取 K- 均值聚类 聚类的问题描述为 给定数据集合 D 把它划分为一组聚类 {C 1 C 2 , C K }, C i D 使得不同类中的数据尽可能的不相似或距离较远 而同一类中的数据尽可能的相似或距离较近 即聚类内...
  • 本文主要是关于清华大学出版社,黄德才老师《数据仓库与数据挖掘教程》第四章中关于警务数据仓库“犯罪_ETL”,“地址_ETL”和“派出所_ETL”数据流任务配置说明,由于书中只给出前四个ETL的配置说明,自己尝试配置...

     

    本文主要是关于清华大学出版社,黄德才老师《数据仓库与数据挖掘教程》第四章中关于警务数据仓库“犯罪_ETL”,“地址_ETL”和“派出所_ETL”数据流任务配置说明,由于书中只给出前四个ETL的配置说明,自己尝试配置了一下后三个ETL,调试通过,所以分享一下配置教程,如有错误,望指正!

    本书第四章主要讲的是警务数据仓库的实现,首先需要安装Microsoft Visual Studio,即微软旗下的商业智能开发平台;

    根据你的数据库版本按下图选择相对应的工具!

    附上下载链接:

    下载 SSDT-BI for Visual Studio 2013(SQL Server 2014、SQL Server 2012、SQL Server 2008 和 2008 R2)

    下载 SSDT-BI for Visual Studio 2012(SQL Server 2014、SQL Server 2012、SQL Server 2008 和 2008 R2)

    具体的安装的步骤我就不说了。

    这里说下我踩过的坑,我的数据库是SQL server 2012,当时第一次下的是第一个版本,安装完成之后愣是连不上数据库,我就以为是版本的问题,于是又下载安装了我认为“对的”版本,发现还是不行,后来才知道,对于 SQL Server 2012 或 2014,你可以使用“SSDT-BI for Visual Studio 2012 或“SSDT-BI for Visual Studio 2013”。 两者之间唯一的区别只在于 Visual Studio 的版本。

    数据库连不上的解决方法:

    当你连接数据库的时候,不要按书上说的点击下拉菜单,而是要直接输入“服务器名\实例名”,不知道的就直接输入下图红框里的内容就行。ps:不要输我的^_^||。

    当所有这些都完了之后,就可以开始配置ETL了;

    配置之前,你要确保自己的服务器中有这两个数据库;

    用矩形框标记的OLTPHotel数据库,即警务信息系统的数据库名称,还有用椭圆形标记的对象HuangDW_Hotel。

     

    准备工作结束,开始ETL配置:

    由于书上给出了前四个的详细配置说明,我就不再写了,我只写下图矩形框标记的三个ETL的配置步骤;

    一,配置“犯罪_ETL”参数

    在下图中,单击“工具箱”并在展开的控件窗口中,选择其中的“数据流任务”控件,并将其拖入“控制流”选项卡窗口之中,然后右击该控件,点击重命名,输入“犯罪_ETL”。

    1.配置“ADO NET 源”控件

    1)打开“数据流”选项卡,在工具箱中吧“ADO NET 源”控件拖入该窗口,然后右击重命名,输入“犯罪类型_源”;

    2)配置“ADO NET 源编辑器”参数

    打开“ADO NET 源编辑器”窗口。在上图所示的窗口中双击“犯罪类型_源”控件左边的小图标,出现“ADO NET 源编辑器”窗口,下图所示;直接按如图所示配置即可。

    2. 配置”查找“控件

    1)同样如图所示,拖动查找控件,放进数据流选项卡;右击重命名为:”类型增量查找“,并将”犯罪类型_源“控件左下的绿色箭头拉到”查找“控件上,与其相连;

    2)配置“查找转换编辑器”参数,同样双击控件左边小图标,出现下图所示小窗口,在左边的常规选项里,只需要注意下图矩形框框起来的部分就行。

    3)“连接”配置,

    4)“列”配置

    右击“CrimeKey”,选择“编辑映射”。按如下配置即可。

    点击确定后,出现下图连线就可以了。

    3.配置“ADO NET 目标”控件

    1)同样在“工具箱”找到“ADO NET 目标”控件,并拖入下图窗口,修改名称。

    将“查找”控件的左下小箭头,连到该控件,双击控件左边小图标,按下图所示配置。

    点击左边“映射”选项,按如图所示配置即可。

    配置完成点击确定,回到下图页面。

    4.调试“犯罪_ETL”数据流任务

    在下图窗口中选择“调试”菜单下的“启动调试”命令,开始执行调试数据流任务。数秒后,所有控件变成绿色,控件之间的连线有数字,表明数据流任务设计正确。

    如图:结果正确!

    剩下的还有“地址_ETL”和“派出所_ETL”,跟“犯罪_ETL”的配置几乎完全相同,这里就不再写了,有时间补上吧。

    时间有限,写的比较急,有错的地方,还请指正。

    展开全文
  • 数据仓库与数据挖掘

    千次阅读 2020-07-07 15:29:58
    同事从家里带来两本老书:一本《数据仓库与数据挖掘教程》,06年出版的数据处理高校教材;另一本《网络科学导论》,12年出版的复杂网络教材。 美名其曰:交流学习。 两本都是非常基础的理论入门教材,但网络科学...

    同事从家里带来两本老书:一本《数据仓库与数据挖掘教程》,06年出版的数据处理高校教材;另一本《网络科学导论》,12年出版的复杂网络教材。

    美名其曰:交流学习。

    两本都是非常基础的理论入门教材,但网络科学这一块实在是一点概念都没有,什么网络拓扑性质、网络动力学、网络控制等看不明白,再一次感叹术业有专攻,就不挣扎了!

     

     

    而《数据仓库与数据挖掘教程》是老本行,拿起这本书就有一种亲切感,虽然书里的概念写的很基础,现在看来就是一些科普性的东西。俗话说温故而知新,当你再回过头来理一些基础知识,对于当初刚接触时又多了一些不同的理解,所以这篇文章也是对数据仓库与数据挖掘做的基础知识小结。

     

    数据仓库与数据挖掘之所以兴起,在于它们能够从丰富的数据资源中提供效果显著的决策支持。数据仓库、数据挖掘、联机分析处理(on line analytical processing,OLAP)等结合起来也称为商业智能(business intelligence,BI)。

    商业智能是一种新的智能技术,区别于人工智能(artificial intelligence,AI)和计算智能(computationalintelligence,CI)。

    人工智能采用的技术是符号推理,符号推理过程形成了概念的推理链。

    计算智能采用的技术是计算推理,模拟人和生物的模糊推理、神经网络计算和遗传进化过程。

     

     

                                          数据仓库体系

     

    数据仓库系统结构由数据仓库、仓库管理和分析工具3部分组成。

     

                                                                                   (数据仓库系统结构图)

     

    仓库管理包括数据建模,数据抽取、转换、装载(ETL),元数据,系统管理4部分。

    • 数据建模是建立数据仓库的数据模型,常见的有星型模型、雪花模型和星网模型;

    • 元数据描述了数据仓库中有什么数据以及数据之间的关系。

    分析工具包括查询工具、多维数据分析工具(OLAP工具)、数据挖掘工具(DM工具)、客户/服务(client/server,C/S)工具等。

     

    数据仓库的开发主要围绕数据仓库功能展开的,包括数据获取、数据存储和决策分析。随着决策需求的扩大,数据仓库的数据将迅速增长。数据仓库为了适应这种变化,采用螺旋式周期性的开发方法较为合适,分为4个阶段12个具体步骤,如下:

     

                                                                     (数据仓库开发过程图)

     

    数据仓库搭建后用户分两类:信息使用者和探索者。

    信息使用者是数据仓库的大量用户,他们以一种可预测的、重发性的方式使用数仓,通常查看概括数据或聚集数据,查看相同的商业维度和指标随时间的发展趋势,很少使用元数据,他们的工作相对来说属于战术性的。

    探索者在数仓上的使用模式是完全不可预测的、非重复性的。他们经常查看历史数据,任务是寻找公司数据内隐含的价值并且根据过去事件努力预测未来决策的结果,是典型的数据挖掘者。

     

    数据仓库本身存储着大量数据,随着时间的延伸又会涌进大量的数据。不仅要对大量存储数据进行有效管理,同时需要对元数据进行管理。

    数据管理中要处理两大类数据:休眠数据和脏数据。发现这两类数据都需要监视器。

    • 休眠数据表示那些存在于数据仓库中当前不使用、将来也很少使用或不使用的数据。

    • 脏数据指在数据源中抽取、转换和装载到数据仓库的过程中出现的多余数据和无用数据。

    管理大量数据的最好办法就是删除休眠数据和脏数据,为了识别出这些数据需要利用数据使用跟踪器(活动跟踪器)。监视活动分为3个级别:表格级、表格/列级和表格/列/值级,一般开销较大。

     

    建立数据仓库的目的不只是为了存储更多的数据,而是对这些数据进行处理并转换成商业信息和知识,利用这些信息来支持企业进行正确的商业行动,并最终获得效益。数仓提供的决策支持一般包括查询与报表、多维分析与原因分析、预测未来、实时决策和自动决策等5种。

     

     

     

     

                                         数据挖掘理论

     

    数据挖掘的一种更广义说法是知识发现(knowledge Discovery inDatabase,KDD),知识发现被认为是从数据中发现有用知识的整个过程,数据挖掘作为它的一个特定步骤,用专门算法从数据中抽取模式,仅占KDD部分的15%~25%。

     

                                                                            (KDD过程图)

     

    数据挖掘任务:关联分析、时序模式、聚类、分类、偏差检测、预测。

    数据挖掘涉及学科:数据库、统计学、机器学习三大主要技术。

    数据挖掘方法和技术分类:归纳学习类、仿生物技术类、公式发现类、统计分析类、模糊数学类、可视化技术类。

    • 归纳学习类包含信息论和集合论方法,主要以决策树、关联规则为代表的一些方法,目前的研究成果较多,也较为实用。

    • 仿生物技术典型的方法是神经网络方法和遗传算法,这两类目前也形成了独立的研究体系,在数据挖掘中发挥了巨大的作用。

    • 公式发现类即对若干数据项进行一定的数学运算,求得相应的数学公式。

    • 可视化数据挖掘是创建可视化的数据挖掘模型,利用这些模型发现业务数据集中存在的模式,从而辅助决策支持及预测新的商机。

     

    数据挖掘对象:数据仓库和关系数据库、文本数据、图像与视频数据,Web数据等。

    • 文本数据是半结构化数据,主要面临的问题是挖掘对象既不是完全无结构的也不是完全结构化的,而且自然语言文本中包含多层次的歧义(词汇、句法、语义、语用)等。

    • 从广义上讲,Web数据也是一类特别的文本信息,文本挖掘的技术也适用于web挖掘,但由于web信息自身的特点,它们应该区别对待。Web挖掘面临的问题是数据量非常庞大且复杂,信息不断在发生着更新,面对的用户群体也各色各样,信息中的“垃圾”也非常多。

       

     

     

                               数据仓库和数据挖掘的发展

     

    综合决策支持系统

    人们通过建立一些数学模型来增强对付复杂的大规模问题的处理能力,使人们尽可能的按客观规律办事,不犯错误。随着新技术的发展,所需要解决的问题会愈来愈复杂,所设计的模型愈来来愈多,不仅是几个而是十多个,几十个,以至上百个模型来解决一个大问题。

     

    决策支持系统(decision support systems ,DSS)的出现就是解决由计算机自动组织和协调多模型的运行及数据库中大量数据的存取和处理,达到更高层次的辅助决策能力。为达到决策支持系统有效地运行,它对语言系统的功能地要求比较高,即它应具有调用模型运行能力、数据库存取能力、数值运算能力、数据处理能力、人机交互能力5种综合能力。

     

                                                                                       (决策支持系统结构)

     

    智能决策支持系统(intelligence decision supportsystems,IDSS)是决策支持系统与人工智能技术相结合的系统,也是DSS的重要发展方向。人工智能技术融入决策支持系统后,增加了知识推理技术,使定量分析与定性分析结合起来,提高辅助决策和支持决策能力。这些人工智能技术可以概括为:推理机+知识库。

     

    把数据仓库、联机分析处理、数据挖掘、模型库(MB)、数据库、知识库(KB)结合起来形成的综合决策支持系统(synthetic intelligencedecision support systems,SDSS)是更高级形式的决策支持系统。

     

                                                                 (综合决策支持系统结构)

     

    综合决策支持系统(SDSS)由3个主体组成:

    • 模型库系统和数据库系统结合的主体,该主体完成多模型的组合与大量共享数据的处理。

    • 数据仓库系统与联机分析处理结合的主体,该主体完成对数据仓库中数据的综合、预测和多维数据分析。

    • 知识库系统与数据挖掘结合的主体,该主体完成推理。

     

    可拓数据挖掘

    可拓学的理论就是通过可拓变换与可拓知识来改变问题的目的或条件,去解决矛盾的问题。数据挖掘是从数据中挖掘出知识,由于数据具有静态性,代表已存在的事实,所挖掘的知识也具有静态性。而可拓数据挖掘以可拓集为理论基础,致力于挖掘可拓知识,挖掘变化知识比挖掘静态知识更有意义。

     

    参考资料(图片来源于网络)

    可拓知识=拓展式(基础知识)+变换蕴含式(变化知识)+关联函数

    https://www.sohu.com/a/225194032_617676大数据与商业智能有什么区别?

    https://baike.baidu.com/reference/6493200/d9c2PzEIdy7_pyyTgqmfQhl2cepWTfoUqR4wO3DAGCyCOmgc3Jiw2-7y9yv98ltemND1cC_UI-DFulOfU4UiXmismBJa可拓集与可拓数据挖掘

    展开全文
  • 很不错的数据仓库与数据挖掘课件,今天上第2章
  • 很不错的数据仓库与数据挖掘教程,今天先上第一章
  • 数据仓库 数据挖掘 商业智能 BI 详细讲解数据挖掘的过程、数据预处理的必要性、数据预处理的基本功能等数据挖掘各个环节的技术及理论要点细则。适用于数据仓库数据挖掘、商业智能、BI培训学习。
  • 数据仓库的基本概念 多维数据模型 数据仓库的系统结构 数据仓库的实现 基于数据仓库数据挖掘
  • 链接:https://pan.baidu.com/s/1xod4_cOvh0zVev8TCOROTA 提取码:3w7r 需要课后答案可留言
  • 清华的数据仓库数据挖掘的书,陈文伟编写的,里面有详细的讲义
  • 数据仓库与数据挖掘试题答案整理 2013 级智能系 高飙 1.名词解释5x4 1主题 主题Subject 宏观分析领域所涉及的分析对象是在较高层次上将企业信息系统中 的数据进行综合归类和分析利用的一个抽象概念每一个主题基本...
  • 数据挖掘 数据仓库经典教程 入门 初学者 数据挖掘 数据仓库经典教程 入门 初学者 数据挖掘 数据仓库经典教程 入门 初学者
  • 数据仓库学习笔记

    2021-07-30 17:27:49
    数据仓库与数据挖掘教程》–黄德才 数据仓库 多源数据问题 1、数据不一致:多个数据源抽数并集成得到的同一数据可能不一致 2、数据属性差异:同一含义的数据在不同数据源中用了不同类型、长度或者量纲来描述 3、...
  • 数据仓库建模方法 OLTP系统建模方法 OLTP(在线事务处理)系统中,主要操作是随机读写 为了保证数据一致性、减少冗余,常使用关系模型 在关系模型中,使用三范式规则来减少冗余 OLAP(在线联机分析) OLAP系统,主要...
  • 数据仓库的概念、特点组合 数据仓库的组成 数据仓库数据库(核心,数据信息存放的地方); 数据抽取工具; 元数据:技术元数据(开发和管理)业务元数据(单位业务); 访问工具; 数据集市(Data Marts)...
  • 数据仓库与数据挖掘技术(第2版)陈京民课件讲义,为您完整讲述数据挖掘应用技术
  • 文章目录数据仓库与数据挖掘课后思考题整理1 数据仓库概述思考题2 数据仓库及其设计思考题实践题3 OLAP技术思考题课后书面作业4 数据挖掘概述思考题5 关联分析思考题实践题7 分类方法思考题实践题8 回归和时序分析...
  • 数据库原理应用教程(第3版):第16章数据仓库与数据挖掘.ppt
  • 数据挖掘技术 知识点整理

    千次阅读 多人点赞 2019-12-31 16:35:01
    数据仓库数据的粒度组织 数据的粒度是指数据仓库的数据单元中所保存数据的综合程度 数据的综合程度越高,其粒度越粗 数据仓库存储的数据粒度越细,则占用的存储空间越大,但提供的更细节的查询 Q3. 知识发现...
  • 数据仓库数据挖掘基础知识点

    千次阅读 2019-02-15 20:13:36
    第一章 数据仓库数据挖掘概述 一、概念题 1、数据仓库的定义是什么?  答:数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中央决策制定过程。 2、数据仓库的特点是什么?  ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,412
精华内容 1,764
关键字:

数据仓库与数据挖掘教程