精华内容
下载资源
问答
  • 2017-09-16 23:53:22
    1. Web 挖掘
      在分布式信息环境中,文档或对象通常被链接在一起,以便于互相访问,这种提供信息的环境包括WWW和在线服务,用户可以通过某些工具从一个对象转到另一个对象
    2. Web挖掘任务划分为4个任务:
      A: 寻找资源,这是一个从Web的多媒体资源中在线或离线检索数据的过程
      B: 信息的选择和预处理,在之前的子任务中检索出不同种类的原始数据后,这个子任务负责转换这些是数据
      C: 总结,总结是在一个和多个Web站点上自动发现一般模式的过程,使用了不同的通用机器学习技术
      D: 分析,这个任务验证和/或解释以挖掘出的模式
      有三个因素会影响到用户通过数据挖掘过程来识别和评估Web站点的方式:
      A: Web页面的内容 B: Web页面的设计 C: 整个站点的设计,包括它的结构
    3. Web内容、结构与使用数据挖掘
      对Web的哪部分进行挖掘是Web挖掘分类的方法之一,Web挖掘包含三个主要方面:Web内容挖掘、Web结构挖掘、Web使用挖掘
      其分类按照在挖掘过程中使用的数据类型,Web内容挖掘使用Web页面的内容作为挖掘过程中需要使用的数据来源,Web页面内容可能包含文本、图像、视频以及其他任何出现在Web页面上的内容
      Web内容挖掘通常在搜索过程中使用,许多不同的解决方案将Web页面文本或图像作为输入,帮助用户发现他们感兴趣的内容,同时,Web内容挖掘也可以直接作用在搜索过程中
    4. Web结构挖掘考虑Web页面之间的关系,大多数Web页面包含一个或多个超链接,Web结构挖掘认为超链接通过页面之间的链接提供了支持佐证
      Web结构挖掘主要用于信息检索过程,Web结构挖掘也用于辅助Web内容挖掘过程,通常,分类任务将考虑Web页面的内容和结构,Web挖掘任务中利用结构挖掘中的一个最普遍的特点是锚文本,锚文本涉及采用HTML超链接的方式,将文本显示给用户,通常,锚文本提供了汇总的未在原始页面中发现的关键字
    5. HITS和LOGSOM算法
      到目前为止,基于索引的Web搜索引擎是用户搜索信息的主要工具
      HITS算法的步骤:
      A: 取样组分,构建在相关信息中可能经常出现的焦点Web页面集合
      B: 权重传播组分,通过一个迭代过程来估计hub页面和权威页面,并且获得最相关、最权威的Web页面子集
      在取样阶段,把Web视为一个页面的有向图,HITS算法首先构造子图,在子图中可以搜索hub页面和权威页面,目标是所构建的子图蕴含高相关性、权威性的页面,在构造这样的自图示,先使用查询方法从基于索引的搜索引擎中收集页面的根集
      在权威传播阶段,要为基本集合V中的所有页面制定一个具体数字,从基本集合V中提取hub页面和权威页面
      6.自组织图谱(SOM)
      SOM技术是组织Web页面的最合适的技术,因为他不仅可以将数据点组织到聚类中,而且可以用图表表示聚类之间的关系,该系统首先创建一个Web日志文件,指定表示日期、时间、和所请求Web页面的地址,以及用户计算机的IP地址,数据组合在有意义的事务或会话中,事务通过用户所请求的Web页面集来进行定义
      7.挖掘路径遍历模式
      在改进公司的Web站点之前,需要顾及它的当前用量,理想情况下,可以根据站点上自动记录的数据来估计
      LOGSOM方法关注Web页面的相似性,而其他技术强调用户浏览Web的路径的相似性,捕捉Web环境中的用户访问模式称为挖掘路径遍历模式
    6. 挖掘遍历模式的两个步骤
      A: 第一步开发出一种算法,将日志数据的原始序列转换成一个遍历序列集,每个遍历序列都代表从用户访问起点开始的一个最大的前向引用,注意,此转换步骤要滤掉后向应用的影响,这种后向引用主要是为了便于遍历,归约后的新用户定义的前向路径可以让我们集中精力挖掘有意义的用户访问序列
      B: 第二部由确定频繁遍历模式的一个独立算法构成,叫做大引用序列,大引用序列实在日志数据库中出现次数足够的一个序列,在最后阶段,算法根据大引用序列形成最大引用,最大序列是不属于其他任何最大引用序列的大引用序列
      9.Page Rank算法
      PageRank算法隐含的主要假设是从网页面a到网页面b的每个链接是页面a对页面b的投票,并非所有的投票都是等价的,投票的权重需要按照PageRank对原始站点的评分确定
      PageRank基于随机浏览模型,如果某个浏览随机的选择某个开始Web页面,并且在每个时间步中浏览随机的选择当前Web页面的某个链接,则PageRank算法表现为该随机浏览针对任何给定页面的概率,一些Web页面不包含任何超链接,当存在任何没有 超链接的Web页面时,该模型假定随机浏览选择了一个随机Web页面,另外,存在一些情况将导致随机浏览停止跟踪链接并重新开始
    7. 文本挖掘
      两种重要技术使在线文本挖掘变为可能,一种是Internet搜索能力,另一种是文本分析方法
      文本信息的自动分析可用于几个不同的目的:
      A: 对大型文档集的内容做一个纵览,并以最有效的方式组织他们
      B: 识别文档之间或文档组之间的隐藏结构
      C: 提高搜索过程的效率,以找到类似的或相关的信息
      D: 检测存档文件的副本信息或文档
      文本挖掘过程主要分类两个阶段:A: 文本提炼,将自由形式的文本文档转换成所选的中介形式
      B: 知识萃取,从中介形式中演绎出模式或知识
    8. 潜在语义分析(LSA)
      潜在语义分析的最初开发已读是考虑单词在一系列使用环境中的语义意思,以提高信息检索技术的精度和效用,LSA使用单词使用率的统计模型来分割自由文本的方法,与特征向量分解及因子分析相似
    更多相关内容
  • Web数据挖掘与虚拟数据库的应用,胡江洪,高伟峰,本文就目前数据挖掘领域的一个研究热点即Web数据挖掘进行介绍,描述了Web数据挖掘的分类、与传统数据挖掘的异同、实现的关键技术等
  • Web数据挖掘在企业数据库营销及客户关系管理中的应用探析.pdf
  • 基于Web of Science数据库数据挖掘和分析对医学期刊优化选题组稿策划的启示.pdf
  • 高校电子文献数据库购买决策——Web数据挖掘技术.pdf
  • 本文根据Web数据流的动态性、连续性和实效性的特点,分析和挖掘不同类型的数据,成立样本库,将分类后的数据用相应的流算法进行处理,构建Web数据流高校资源服务平台。高校资源服务平台分为用户应用服务层、数据资源...
  • 我们将建立一个RapidMiner挖掘流程,来学习如何通过连接到生物医学期刊网站,获取蛋白质相关论文的web数据,从中找到用户关心的某些信息内容:某蛋白质近年来论文发表数量趋势,及该蛋白质论文的作者、联系邮箱、...
  • 基于SQL数据库Web使用挖掘研究.pdf
  • A.地址 C.情绪B.行为 D.来源70) 通过数据收集和展示数据背后的( D ),运用丰富的、具有互动性的...数据挖掘D. 关联与模式71) CRISP-DM 模型中Evaluation表示对建立的模型进行评估,重点具体考虑得出的结果是否符合( C ...

    A.地址 C.情绪

    B.行为 D.来源

    70) 通过数据收集和展示数据背后的( D ),运用丰富的、具有互动性的可视化手段,

    数据新闻学成为新闻学作为一门新的分支进入主流媒体,即用数据报道新闻。 A.数据收集 C.真相

    B.数据挖掘

    D. 关联与模式

    71) CRISP-DM 模型中Evaluation表示对建立的模型进行评估,重点具体考虑得出的结果是

    否符合( C )的商业目的。 A.第二步 C.第一步

    B.第三步 D.最后一步

    72) 发现关联规则的算法通常要经过以下三个步骤:连接数据,作数据准备;给定最小支持

    度和( D ),利用数据挖掘工具提供的算法发现关联规则;可视化显示、理解、评估关联规则 A. 最小兴趣度 C. 最大支持度

    B. 最小置信度 D. 最小可信度

    73) 规则I->j,“有可能”,等于所有包含I的购物篮中同时包含J的购物篮的比例,为

    ( B )。 A. 置信度 C. 兴趣度

    B.可信度

    D. 支持度

    74) 如果一个匹配中,任何一个节点都不同时是两条或多条边的端点,也称作( C )

    A. 极大匹配 C完美匹配

    B.二分匹配 D.极小匹配

    75) 只要具有适当的政策推动,大数据的使用将成为未来提高竞争力、生产力、创新能力以

    及( D )的关键要素。 A.提高消费

    B.提高GDP

    C.提高生活水平 D. 创造消费者盈余

    76) 个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助

    ( D )为其顾客购物提供完全个性化的决策支持和信息服务。 A.公司

    B.各单位

    C.跨国企业 D. 电子商务网站

    77) 云计算是对( D )技术的发展与运用

    A.并行计算 B.网格计算 C.分布式计算 D.三个选项都是

    78) ( B )是Google提出的用于处理海量数据的并行编程模式和大规模数据集的并行运

    算的软件架构。

    A.GFS B.MapReduce C.Chubby D.BitTable

    79) 在Bigtable中,( A )主要用来存储子表数据以及一些日志文件

    A. GFS B. Chubby C.SSTable D.MapReduce

    二、判断题(共40题)

    1) 分类是预测数据对象的离散类别,预测是用于数据对象的连续取值。 (对)

    2) 时序预测回归预测一样,也是用已知的数据预测未来的值,但这些数据的区别是变量所

    处时间的不同。(错)

    3) 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数

    据等任务。 (对)

    4) 对遗漏数据的处理方法主要有:忽略该条记录;手工填补遗漏值;利用默认值填补遗漏

    值;利用均值填补遗漏值;利用同类别均值填补遗漏值;利用最可能的值填充遗漏值。(对)

    5) 神经网络对噪音数据具有高承受能力,并能对未经过训练的数据具有分类能力,但其需

    要很长的训练时间,因而对于有足够长训练时间的应用更合适。(对)

    6) 数据分类由两步过程组成:第一步,建立一个聚类模型,描述指定的数据类集或概念集;

    第二步,使用模型进行分类。(错)

    7) 聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。 (对) 8) 决策树方法通常用于关联规则挖掘。 (错)

    9) 数据规范化指将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0-1)

    以提高数据挖掘效率的方法。规范化的常用方法有:最大-最小规范化、零-均值规范化、

    小数定标规范化。(对)

    10) 原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致

    原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。(对)

    11) 数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表

    性。(对)

    12) 分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传

    算法。(对)

    13) 可信度是对关联规则的准确度的衡量。 (错)

    14) 孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。 (错) 15) Apriori算法是一种典型的关联规则挖掘算法。 (对)

    16) 用于分类的离散化方法之间的根本区别在于是否使用类信息。 (对) 17) 特征提取技术并不依赖于特定的领域。 (错)

    18) 模型的具体化就是预测公式,公式可以产生与观察值有相似结构的输出,这就是预测值。

    (对)

    19) 文本挖掘又称信息检索,是从大量文本数据中提取以前未知的、有用的、可理解的、可

    操作的知识的过程。 (错)

    20) 定量属性可以是整数值或者是连续值。 (对)

    21) 可视化技术对于分析的数据类型通常不是专用性的。 (错)

    22) OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发

    展之后迅猛发展起来的一种新技术。 (对)

    23) Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设

    过程中提取信息。 (错)

    24) 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。 (错) 25) 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。 (对) 26) 先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。(错) 27) 回归分析通常用于挖掘关联规则。(错)

    28) 具有较高的支持度的项集具有较高的置信度。(错)

    29) 维归约可以去掉不重要的属性,减少数据立方体的维数,从而减少数据挖掘处理的数据

    量,提高挖掘效率。(对)

    30) 聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),

    以便能够使用模型预测类标记未知的对象类。 (错)

    31) 对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本

    对分类结果没有影响。 (对)

    32) Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分

    类结果取决于各类域中样本的全体。 (错)

    33) 在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验

    误差开始增大,这是出现了模型拟合不足的问题。 (错)

    34) 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。(错) 35) 聚类分析可以看作是一种非监督的分类。(对)

    36) K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。(错 37) 基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。(对) 38) 如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。(对) 39) 大数据的4V特点是Volume、Velocity、Variety、Veracity。(对)

    40) 聚类分析的相异度矩阵是用于存储所有对象两两之间相异度的矩阵,为一个nn维的单

    模矩阵。(对)

    三、多选题(共30题)

    1) 噪声数据的产生原因主要有:(ABCD)

    A. 数据采集设备有问题

    B. 在数据录入过程中发生了人为或计算机错误 C. 数据传输过程中发生错误

    D. 由于命名规则或数据代码不同而引起的不一致

    2) 寻找数据集中的关系是为了寻找精确、方便并且有价值地总结出数据的某一特征的表示,

    这个过程包括了以下哪些步骤? (A B C D) A.选择一个算法过程使评分函数最优

    B.决定如何量化和比较不同表示拟合数据的好坏

    C.决定要使用的表示的特征和结构

    D.决定用什么样的数据管理原则以高效地实现算法 3) 数据挖掘的预测建模任务主要包括哪几大类问题? (A B)

    A. 分类 B. 回归 C. 聚类 D. 关联规则挖掘

    4) 下列属于不同的有序数据的有:(A B C D)

    A.时序数据 B.序列数据 C.时间序列数据 D.事务数据 E.空间数据

    5) 下面属于数据集的一般特性的有:( B C D)

    A.连续性 B.维度 C.稀疏性 D.分辨率 E.相异性

    6)下面属于维归约常用的处理技术的有: (A C)

    A.主成分分析 B.特征提取 C.奇异值分解 D.特征加权 E.离散化

    7) 噪声数据处理的方法主要有:( ABD )

    A.分箱 B.聚类 C.关联分析 D.回归

    8) 数据挖掘的主要功能包括概念描述、趋势分析、孤立点分析及(A.挖掘频繁模式 B.分类和预测

    )等方面。 ABCD

    展开全文
  • web数据挖掘

    2018-06-11 22:19:12
    数据挖掘(Data Mining)所要处理的问题,就是在庞大的数据库中找出有价值的隐藏事件,并且加以分析,其主要的贡献在于从数据库中获取有意义的信息以及对数据归纳出有用的结构,作为企业进行决策的依据。此外,数据挖掘的也...
  • 数据库(DB)与数据仓库(DW),大数据处理(Big Data)与数据挖掘技术是当代数据处理的最新技术。这几项技术的结合开创了决策支持系统(DSS)发展的新方向。建立DW是科学决策的前提。 课程学习的目标 (1)掌握DB,...
  • 一种已经建立的数据挖掘方法是Web使用率挖掘。 Web使用情况挖掘基于用户单击站点时Web服务器生成的日志记录信息。 本文介绍的一种提供更大灵活性的新方法是多层数据挖掘。 它利用了Web应用程序中的多个层。 本文将...
  • ( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 某超市研究销售纪录数据后发现,买啤酒的人很大概率...

    一、单选题(共80题)

    ( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。

    A.数据清洗       B.数据集成

    C.数据变换       D.数据归约

    某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)
       A. 关联规则发现       B. 聚类
       C. 分类               D. 自然语言处理

    以下两种描述分别对应哪两种对分类算法的评价标准?(A)
      (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。
      (b)描述有多少比例的小偷给警察抓了的标准。
      A. Precision,Recall   B.Recall,Precision
      A. Precision,ROC      D. Recall,ROC

    将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)
      A. 频繁模式挖掘       B. 分类和预测    

    C. 数据预处理         D. 数据流挖掘

    当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)
      A. 分类               B. 聚类     

    C. 关联分析           D. 隐马尔可夫链

    建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)
      A. 根据内容检索       B. 建模描述
      C. 预测建模           D. 寻找模式和规则

    下面哪种不属于数据预处理的方法? (D)
      A.变量代换            B.离散化 

    C.聚集                D.估计遗漏值  

    假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? (B)
      A.第一个             B.第二个  

    C.第三个             D.第四个  

    下面哪个不属于数据的属性类型:(D)
      A.标称               B.序数  

    C.区间               D.相异   

    只有非零值才重要的二元属性被称作:( C )
      A.计数属性           B.离散属性

    C.非对称的二元属性   D.对称属性 

    以下哪种方法不属于特征选择的标准方法:    (D)
      A.嵌入               B.过滤   

    C.包装               D.抽样 

    下面不属于创建新属性的相关方法的是: (B)
     A.特征提取            B.特征修改   

    C.映射数据到新的空间  D.特征构造

    下面哪个属于映射数据到新的空间的方法? (A)
     A.傅立叶变换          B.特征加权  

    C.渐进抽样            D.维归约

    假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:(D)
     A.0.821              B.1.224  

    C.1.458              D.0.716

    一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是: (A)
     A.一年级              B.二年级   

    C.三年级              D.四年级 

    下列哪个不是专门用于可视化时间空间数据的技术:(B)
     A.等高线图            B.饼图 

    C.曲面图              D.矢量场图

    在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: (D)
     A.有放回的简单随机抽样  

    B.无放回的简单随机抽样 

    C.分层抽样

    D 渐进抽样

    数据仓库是随着时间变化的,下面的描述不正确的是 (C)
    A.数据仓库随时间的变化不断增加新的数据内容
    B.捕捉到的新数据会覆盖原来的快照
    C.数据仓库随事件变化不断删去旧的数据内容
    D.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合

    下面关于数据粒度的描述不正确的是: (C)
    A.粒度是指数据仓库小数据单元的详细程度和级别
    B.数据越详细,粒度就越小,级别也就越高
    C.数据综合度越高,粒度也就越大,级别也就越高
    D.粒度的具体划分将直接影响数据仓库中的数据量以及查询质量

    有关数据仓库的开发特点,不正确的描述是: (A)
    A.数据仓库开发要从数据出发
    B.数据仓库使用的需求在开发出去就要明确
    C.数据仓库的开发是一个不断循环的过程,是启发式的开发
    D.在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式

    关于OLAP的特性,下面正确的是: (D)
    (1)快速性 (2)可分析性 (3)多维性 (4)信息性 (5)共享性
    A.(1) (2) (3)
    B.(2) (3) (4)
    C.(1) (2) (3) (4)
    D.(1) (2) (3) (4) (5)

    关于OLAP和OLTP的区别描述,不正确的是: (C)
    A.OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同
    B.与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务
    C.OLAP的特点在于事务量大,但事务内容比较简单且重复率高
    D.OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的

    关于OLAP和OLTP的说法,下列不正确的是: (A)
    A.OLAP事务量大,但事务内容比较简单且重复率高
    B.OLAP的最终数据来源与OLTP不一样
    C.OLTP面对的是决策人员和高层管理人员
    D.OLTP以应用为核心,是应用驱动的

    设X={1,2,3}是频繁项集,则可由X产生( C )个关联规则。
    A.4       B.5   

    C.6       D.7    

    考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含( C )
    A.1,2,3,4     B.1,2,3,5  

    C.1,2,4,5     D.1,3,4,5

    下面选项中t不是s的子序列的是  ( C )
    A.s=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}>
    B.s=<{2,4},{3,5,6},{8}> t=<{2},{8}>
    C.s=<{1,2},{3,4}> t=<{1},{2}>
    D.s=<{2,4},{2,4}> t=<{2},{4}>

    在图集合中发现一组公共子结构,这样的任务称为 ( B )
    A.频繁子集挖掘     B.频繁子图挖掘  

    C.频繁数据项挖掘   D.频繁模式挖掘

    下列度量不具有反演性的是 (D)
    A.系数             B.几率   

    C.Cohen度量       D.兴趣因子

    下列 ( A )不是将主观信息加入到模式发现任务中的方法。
    A.与同一时期其他数据对比
    B.可视化
    C.基于模板的方法
    D.主观兴趣度量

    下面购物蓝能够提取的3-项集的最大数量是多少(C)

    TID

    项集

    1

    牛奶,啤酒,尿布

    2

    面包,黄油,牛奶

    3

    牛奶,尿布,饼干

    4

    面包,黄油,饼干

    5

    啤酒,饼干,尿布

    6

    牛奶,尿布,面包,黄油

    7

    面包,黄油,尿布

    8

    啤酒,尿布

    9

    牛奶,尿布,面包,黄油

    10

    啤酒,饼干


    A.1     B.2     C.3     D.4

    以下哪些算法是分类算法  (B)

    A.DBSCAN   B.C4.5    C.K-Mean  D.EM

    以下哪些分类方法可以较好地避免样本的不平衡问题(A)

    A.KNN   B.SVM   C.Bayes   D.神经网络  

    决策树中不包含一下哪种结点 ( C )

    根结点(root node)

    内部结点(internal node)

    外部结点(external node)

    叶结点(leaf node)

    以下哪项关于决策树的说法是错误的 (C)

    A. 冗余属性不会对决策树的准确率造成不利的影响 
    B. 子树可能在决策树中重复多次 
    C. 决策树算法对于噪声的干扰非常敏感  
    D. 寻找最佳决策树是NP完全问题

    在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为 (B)
    A. 基于类的排序方案 
    B. 基于规则的排序方案 
    C. 基于度量的排序方案 
    D. 基于规格的排序方案。  

    以下哪些算法是基于规则的分类器 (A) 
    A.  C4.5         B. KNN 

    C. Naive Bayes    D.ANN

    可用作数据挖掘分析中的关联规则算法有(C)。
    A. 决策树、对数回归、关联模式 

    B. K均值法、SOM神经网络 

    C. Apriori算法、FP-Tree算法 

    D. RBF神经网络、K均值法、决策树

    如果对属性值的任一组合,R中都存在一条规则加以覆盖,则称规则集R中的规则为( B )

    A.无序规则  B.穷举规则  C.互斥规则  D.有序规则

    用于分类与回归应用的主要算法有: ( D )

    A.Apriori算法、HotSpot算法   

    B.RBF神经网络、K均值法、决策树 

    C.K均值法、SOM神经网络 

    D.决策树、BP神经网络、贝叶斯

    40)如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为(A)  
        A.无序规则  B.穷举规则  C.互斥规则  D.有序规则

    41)考虑两队之间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为 (C)
        A.0.75    B.0.35    C.0.4678    D.0.5738

    42)以下关于人工神经网络(ANN)的描述错误的有 (A)
    A.神经网络对训练数据中的噪声非常鲁棒

    B.可以处理冗余特征 

    C.训练ANN是一个很耗时的过程 

    D.至少含有一个隐藏层的多层神经网络

    43)通过聚集多个分类器的预测来提高分类准确率的技术称为 (A)

    A.组合(ensemble)     B.聚集(aggregate) 

    C.合并(combination)  D.投票(voting)

    44)简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( B )

     A.层次聚类           B.划分聚类    

     C.非互斥聚类         D.模糊聚类

    45)在基本K均值算法里,当邻近度函数采用( A )的时候,合适的质心是簇中各点的中位数。
         A.曼哈顿距离        B.平方欧几里德距离 

    C.余弦距离          D.Bregman散度  
    46)( C )是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。
         A.边界点            B.质心     

    C.离群点            D.核心点
    47)BIRCH是一种( B )。
         A.分类器            B.聚类算法     

    C.关联分析算法      D.特征选择算法
    48)检测一元正态分布中的离群点,属于异常检测中的基于( A )的离群点检测。

      A.统计方法         B.邻近度      

    C.密度             D.聚类技术
    49)( C )将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。
          A.MIN(单链)       B.MAX(全链)     

    C.组平均            D.Ward方法
    50)( D )将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚层次聚类技术。
          A.MIN(单链)       B.MAX(全链)     

    C.组平均            D.Ward方法
    51) 下列算法中,不属于外推法的是( B )。
          A.移动平均法        B.回归分析法     

    C.指数平滑法        D.季节指数法
    52) 关联规则的评价指标是:( C )。
          A. 均方误差、均方根误差     

    B. Kappa统计、显著性检验     

    C. 支持度、置信度  

    D. 平均绝对误差、相对误差
    53)关于K均值和DBSCAN的比较,以下说法不正确的是( A )。
       A.K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。
      B.K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。
       C.K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。
       D.K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。

    54)从研究现状上看,下面不属于云计算特点的是( C  )

    A.超大规模           B.虚拟化  

    C.私有化             D.高可靠性

    55)考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的类,因为这两个对象一般不会共享许多近邻,所以应该选择( D )的相似度计算方法。
        A.平方欧几里德距离       B.余弦距离    

    C.直接相似度             D.共享最近邻
    56) 分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务,属于( A)问题。

    A.关联规则挖掘           B.分类与回归     

    C.聚类分析               D.时序预测
    57)以下哪个聚类算法不是属于基于原型的聚类( D )。
        A.模糊C均值         B.EM算法      

    C.SOM                D.CLIQUE
    58)关于混合模型聚类算法的优缺点,下面说法正确的是( B )。
       A.当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理。
       B.混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布。
       C.混合模型很难发现不同大小和椭球形状的簇。
       D.混合模型在有噪声和离群点时不会存在问题。
    59)以下哪个聚类算法不属于基于网格的聚类算法( D )。
        A.STING         B.WaveCluster     

    C.MAFIA         D.BIRCH
    60)一个对象的离群点得分是该对象周围密度的逆。这是基于( C )的离群点定义。
        A.概率          B.邻近度     

    C.密度          D.聚类

    舆情研判,信息科学侧重( C  ),社会和管理科学侧重突发群体事件管理中的群体心理行为及舆论控制研究,新闻传播学侧重对舆论的本体进行规律性的探索和研究。

    A.舆论的本体进行规律性的探索和研究             

    B.舆论控制研究    

    C.互联网文本挖掘和分析技术

    D.用户行为分析

    MapReduce的Map函数产生很多的(   C    )

    A.key                         B.value          

    C.<key,value>              D.Hash

    Mapreduce适用于 (  D  )

    A.任意应用程序  

    B. 任意可在windows servet2008上运行的程序

    C.可以串行处理的应用程序    

    D. 可以并行处理的应用程序

    PageRank是一个函数,它对Web中的每个网页赋予一个实数值。它的意图在于网页的PageRank越高,那么它就(    D   )。

    A.相关性越高              B.越不重要             

    C.相关性越低              D.越重要

    ╳A.一对一                     B.一对多                 

    C. 多对多                         D. 多对一

    协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度(   D    ),并将这些用户喜欢的项推荐给有相似兴趣的用户。

    A. 相似                   B.相同               

    C.推荐                      D. 预测

    大数据指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并(   B    )成为帮助企业经营决策更积极目的的信息。

    A.收集                    B.整理               

    C.规划                      D.聚集

    大数据科学关注大数据网络发展和运营过程中(  D    )大数据的规律及其与自然和社会活动之间的关系。

    A.大数据网络发展和运营过程             B.规划建设运营管理

    C.规律和验证                                                        D.发现和验证

    大数据的价值是通过数据共享、(    D    )后获取最大的数据价值

    A.算法共享                B.共享应用               

    C. 数据交换                D. 交叉复用

    社交网络产生了海量用户以及实时和完整的数据,同时社交网络也记录了用户群体的(   C    ),通过深入挖掘这些数据来了解用户,然后将这些分析后的数据信息推给需要的品牌商家或是微博营销公司。

    A.地址                    B.行为               

    C.情绪                      D.来源

    通过数据收集和展示数据背后的(    D    ),运用丰富的、具有互动性的可视化手段,数据新闻学成为新闻学作为一门新的分支进入主流媒体,即用数据报道新闻。

    A.数据收集                 B.数据挖掘             

    C.真相                      D. 关联与模式

    CRISP-DM 模型中Evaluation表示对建立的模型进行评估,重点具体考虑得出的结果是否符合(   C    )的商业目的。

    A.第二步                 B.第三步           

    C.第一步                 D.最后一步

    发现关联规则的算法通常要经过以下三个步骤:连接数据,作数据准备;给定最小支持度和(    D    ),利用数据挖掘工具提供的算法发现关联规则;可视化显示、理解、评估关联规则

    A. 最小兴趣度               B. 最小置信度                

    C. 最大支持度                 D. 最小可信度

    规则I->j,“有可能”,等于所有包含I的购物篮中同时包含J的购物篮的比例,为(    B   )。

    A. 置信度                 B.可信度               

    C. 兴趣度                      D. 支持度

    如果一个匹配中,任何一个节点都不同时是两条或多条边的端点,也称作(   C     )

    A. 极大匹配            B.二分匹配          

    C完美匹配               D.极小匹配

    只要具有适当的政策推动,大数据的使用将成为未来提高竞争力、生产力、创新能力以及(   D   )的关键要素。

    A.提高消费              B.提高GDP          

    C.提高生活水平      D. 创造消费者盈余

    个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助(    D  )为其顾客购物提供完全个性化的决策支持和信息服务。

    A.公司                 B.各单位                 

    C.跨国企业               D. 电子商务网站

    云计算是对(  D  )技术的发展与运用

    A.并行计算        B.网格计算 

    C.分布式计算      D.三个选项都是

    ( B  )是Google提出的用于处理海量数据的并行编程模式和大规模数据集的并行运算的软件架构。

    A.GFS            B.MapReduce    

    C.Chubby         D.BitTable

    在Bigtable中,( A )主要用来存储子表数据以及一些日志文件

    A. GFS           B. Chubby        

    C.SSTable         D.MapReduce

     

    二、判断题(共40题)

    分类是预测数据对象的离散类别,预测是用于数据对象的连续取值。  (对)

    时序预测回归预测一样,也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。(错)

    数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。 (对)

    对遗漏数据的处理方法主要有:忽略该条记录;手工填补遗漏值;利用默认值填补遗漏值;利用均值填补遗漏值;利用同类别均值填补遗漏值;利用最可能的值填充遗漏值。(对)

    神经网络对噪音数据具有高承受能力,并能对未经过训练的数据具有分类能力,但其需要很长的训练时间,因而对于有足够长训练时间的应用更合适。(对)

    数据分类由两步过程组成:第一步,建立一个聚类模型,描述指定的数据类集或概念集;第二步,使用模型进行分类。(错)

    聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。 (对)

    决策树方法通常用于关联规则挖掘。 (错)

    数据规范化指将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0-1)以提高数据挖掘效率的方法。规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化。(对)

    原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。(对)

    数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表性。(对)

    分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法。(对)

    可信度是对关联规则的准确度的衡量。  (错)

    孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。  (错)

    Apriori算法是一种典型的关联规则挖掘算法。(对)

    用于分类的离散化方法之间的根本区别在于是否使用类信息。 (对)

    特征提取技术并不依赖于特定的领域。  (错)

    模型的具体化就是预测公式,公式可以产生与观察值有相似结构的输出,这就是预测值。 (对)

    文本挖掘又称信息检索,是从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程。(错)

    定量属性可以是整数值或者是连续值。  (对)

    可视化技术对于分析的数据类型通常不是专用性的。 (错)

    OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。(对)

    Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息。   (错)

    关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。  (错)

    利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。  (对)

    先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。(错)

    回归分析通常用于挖掘关联规则。(错)

    具有较高的支持度的项集具有较高的置信度。(错)

    维归约可以去掉不重要的属性,减少数据立方体的维数,从而减少数据挖掘处理的数据量,提高挖掘效率。(对)

    聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。  (错)

    对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。(对)

    Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。   (错)

    在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。(错)

    在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。(错)

    聚类分析可以看作是一种非监督的分类。(对)

    K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。(错

    基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。(对)

    如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。(对)

    大数据的4V特点是Volume、Velocity、Variety、Veracity。(对)

    聚类分析的相异度矩阵是用于存储所有对象两两之间相异度的矩阵,为一个nn维的单模矩阵。(对)

     

    三、多选题(共30题)

    噪声数据的产生原因主要有:(ABCD)

    数据采集设备有问题

    在数据录入过程中发生了人为或计算机错误

    数据传输过程中发生错误

    由于命名规则或数据代码不同而引起的不一致

    寻找数据集中的关系是为了寻找精确、方便并且有价值地总结出数据的某一特征的表示,这个过程包括了以下哪些步骤? (A B C D)

    A.选择一个算法过程使评分函数最优
    B.决定如何量化和比较不同表示拟合数据的好坏
    C.决定要使用的表示的特征和结构
    D.决定用什么样的数据管理原则以高效地实现算法

    数据挖掘的预测建模任务主要包括哪几大类问题?(A B)

    A. 分类 

    B. 回归  

    C. 聚类 

    D. 关联规则挖掘

    4) 下列属于不同的有序数据的有:(A B C D)
    A.时序数据

    B.序列数据

    C.时间序列数据

    D.事务数据

    E.空间数据

    5) 下面属于数据集的一般特性的有:( B C D)
    A.连续性

    B.维度

    C.稀疏性

    D.分辨率

    E.相异性

    6)下面属于维归约常用的处理技术的有: (A C)
    A.主成分分析

    B.特征提取

    C.奇异值分解

    D.特征加权

    E.离散化

    噪声数据处理的方法主要有:( ABD )

    A.分箱           B.聚类

    C.关联分析       D.回归

    数据挖掘的主要功能包括概念描述、趋势分析、孤立点分析及(  ABCD  )等方面。

    A.挖掘频繁模式      B.分类和预测   

    C.聚类分析           D.偏差分析

    以下各项均是针对数据仓库的不同说法,你认为正确的有(BCD    )。
      A.数据仓库就是数据库
      B.数据仓库是一切商业智能系统的基础
      C.数据仓库是面向业务的,支持联机事务处理(OLTP)
      D.数据仓库支持决策而非事务处理

    10)联机分析处理包括(  BCD  )基本分析功能。
    A.聚类             B.切片  

    C.转轴              D.切块

    11)利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。在以下的购物篮中产生支持度不小于3的候选3-项集,在候选2-项集中需要剪枝的是( BD )

    TID

    项集

    1

    面包、牛奶

    2

    面包、尿布、啤酒、鸡蛋

    3

    牛奶、尿布、啤酒、可乐

    4

    面包、牛奶、尿布、啤酒

    5

    面包、牛奶、尿布、可乐


    A.啤酒、尿布        B.啤酒、面包

    C.面包、尿布        D.啤酒、牛奶

    12)下表是一个购物篮,假定支持度阈值为40%,其中(  AD   )是频繁闭项集。
     

    ID

    项集

    1

    面包、牛奶、尿布

    2

    面包、牛奶、尿布、啤酒

    3

    牛奶、尿布、鸡蛋

    4

    面包、尿布、啤酒、鸡蛋

    5

    啤酒、鸡蛋


    A.面包、牛奶、尿布      B.面包、啤酒
    C.尿布、啤酒            D.啤酒、鸡蛋

    13)Apriori算法的计算复杂度受(  ABCD  )影响。

    A.支持度阀值            B.项数(维度)

    C.事务数                D.事务平均宽度

    14)以下关于非频繁模式说法,正确的是(  AD  )

    A.其支持度小于阈值         B.都是不让人感兴趣的

    C.包含负模式和负相关模式   D.对异常数据项敏感

    15)以下属于分类器评价或比较尺度的有: (   ACD   )

    A.预测准确度           B.召回率

    C.模型描述的简洁度     D.计算复杂度

    16)贝叶斯信念网络(BBN)有如下哪些特点。 (AB)

    A.构造网络费时费力

    B.对模型的过分问题非常鲁棒

    C.贝叶斯网络不适合处理不完整的数据

    D.网络结构确定后,添加变量相当麻烦

    17)如下哪些不是最近邻分类器的特点。  (C)

    A.它使用具体的训练实例进行预测,不必维护源自数据的模型

    B.分类一个测试样例开销很大

    C.最近邻分类器基于全局信息进行预测

    D.可以生产任意形状的决策边界

    18)以下属于聚类算法的是( AB )。
        A.K-Means         B.DBSCAN     

    C.Apriori         D.KNN

    19)( CD )都属于簇有效性的监督度量。
        A.轮廓系数        B.共性分类相关系数     

    C.熵              D.F度量

    20)( ABCD )这些数据特性都是对聚类分析具有很强影响的。
        A.高维性          B.规模

    C.稀疏性          D.噪声和离群点

    21)在聚类分析当中,( AD )等技术可以处理任意形状的簇。
        A.MIN(单链)     B.MAX(全链)     

    C.组平均          D.Chameleon

    22)( AB )都属于分裂的层次聚类算法。
        A.二分K均值      B.MST     

    C.Chameleon       D.组平均

    23)数据挖掘的挖掘方法包括:(   ABCD    )

    A.聚类分析        B.回归分析                  

    C.神经网络               D.决策树算法

    24)Web内容挖掘实现技术(   ABCD   )

    A.文本总结        B.文本分类

    C.文本聚类        D.关联规则

    25)基于内容的推荐生成推荐的过程主要依靠(  ACD    )

    A.内容分析器         

    B.推荐系统              

    C.文件学习器         

    D.过滤部件

    26)云计算的服务方式有( ACD  )

    A.IaaS              B.Raas               

    C.PaaS              D.SaaS

    27)文本挖掘的工具有( BCD  )

    A.SPP Text Mining                            

    B.IBM DB2 intelligent Miner

    C.SAS Text Miner                                          

    D.SPSS Text Mining

    28)推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求,推荐基于网站最热卖商品、客户所处城市、(    D   ),推测客户将来可能的购买行为。

    A.客户的朋友            B.客户的个人信息

    C.客户的兴趣爱好    D.客户过去的购买行为和购买记录

    29)数据预处理方法主要有( ABCD)。

    A.数据清洗        B.数据集成 

    C.数据变换        D.数据归约

    30)与传统的分布式程序设计相比,Mapreduce封装了  (  ABCD  )等细节,还提供了一个简单而强大的接口。

    A.并行处理        B.容错处理  

    C.本地化计算      D.负载均衡

    展开全文
  • 电子商务网站的网上业务量巨大,在每天的大量业务中蕴涵了许多用户的隐藏信息。...而通过数据挖掘在 123 上的应用,即123 .&4&45; 技术,公司可以利用有效的顾客信息,发掘潜在的市场,提高竞争力。
  • Python语言的崛起让大家对web、爬虫、数据分析、数据挖掘等十分感兴趣。数据挖掘就业前景怎么样?关于这个问题的回答,大家首先要知道什么是数据挖掘。所谓数据挖掘就是指从数据库的大量数据中揭示出隐含的、先前...
  • 数据仓库及数据挖掘

    千次阅读 2022-03-25 00:05:51
    一、数据仓库概述 二、数据仓库的建设 三、数据仓库的分类 四、数据仓库的设计方法 五、数据挖掘 1、概述 2、常用技术与方法 3、应用

    建立数据仓库的意义在于使用这些数据,而最典型的应用是数据挖掘。

    一、数据仓库概述

    数据仓库是一个面向主题、集成、相对稳定、反映历史变化的数据集合。其中,
    1)数据源是数据仓库系统的基础,是整个系统的数据源泉
    2)OLAP(On-Line Analytical Processing,联机分析处理)服务器对数据进行有效集成,按多维模型予以组织;
    3)前端工具应用、挖掘数据
    在这里插入图片描述

    二、数据仓库的分类

    从结构的角度看,数据仓库可分为3种模型:

    1、企业仓库
    面向企业级应用,搜集企业各个主题的所有信息,提供全企业范围的数据集成。其数据通常来自多个操作型数据库(即OLTP,我们应用程序常用的数据库)和外部信息提供者,并且跨多个功能范围。

    企业仓库通常包含详细数据和汇总数据,数据量可达TB级。

    2、数据集市
    数据集市(Datamart),面向企业部门级应用,针对特定用户,是企业范围数据的一个子集,范围限定于选定的主题。为什么叫集市呢?可能是各取所需之意吧。根据数据来源的不同,分为

    1)从属数据集市(Dependent Datamart)
    数据来源于中央数据仓库。为一些部门单独复制、加工一份数据,建立数据集市,可以提高部门的访问速度,也能满足部门的特殊分析要求。从属数据集市的数据与中央数据仓库保持一致,已经经过了处理和检验。

    2)独立数据集市(Independent Datamart)
    数据直接来源于业务系统。

    独立数据集市优点是建立迅速,成本低廉,但由于各自独立,想整合成统一的中心数据仓库时可能会遇到困难,需要重新设计和部门协调等。

    3、虚拟仓库
    数据虚拟仓库(Virtual Warehouse)是视图的集合。只定义了来自各个操作型数据库上的查询,除了一些汇总视图可能被物化外,并没有存储数据。

    虚拟仓库容易建立,但消耗操作型数据库服务器资源,需要它们具有剩余的工作能力。
    在这里插入图片描述

    【补充知识】

    1、数据虚拟化
    数据虚拟化 是一种数据管理方法,它允许应用程序检索和操作数据而无需有关数据的技术细节,例如在源上如何格式化或在物理上位于何处,并可以提供 单一客户视图 (或任何其他实体的单一视图)。数据虚拟化不同于传统的提取,转换,加载 (“ ETL”)过程,数据仍然保留在原处,并实时访问源系统以获取数据。

    数据虚拟化有如下特点:

    1)可连接到任何数据来源
    数据虚拟化可连接到所有类型的数据来源,包括数据库、数据仓库、云应用程序、大数据存储库甚至 Excel 文件。

    2)可合并任何类型的数据
    数据虚拟化可将任意数据格式的相关信息合并到业务视图中,包括关系数据库、noSQL、Hadoop、Web 服务和云 API、文件等。

    3)可在任何模式下使用数据
    数据虚拟化使业务用户能够通过报表、仪表板、门户、移动应用程序和 Web 应用程序使用数据。

    2、联邦数据库
    联邦数据库系统 (FDBMS) 是一种元数据库管理系统,透明地映射多个自治数据库系统,变成一个联合数据库。组成的各数据库(称为单元数据库)可能分散于各个地域,通过计算机网络连接起来 。由于组成数据库系统保持自治,因此与合并多个不同数据库的任务相比,联邦数据库系统是一个可对比的替代方案。联邦数据库只是一个管理软件,本身并没有实际的数据集成。

    通过数据抽象,联邦数据库系统可以提供统一的用户界面,而存储和检索的数据来自多个不连续的资料库,甚至构成的数据库是异质的。为此,联邦数据库系统必须能够将查询分解为子查询以提交给相关组成部分。 之后系统也必须能将各子查询的结果集汇集。由于各种数据库管理系统采用不同的查询语言,联邦数据库系统可以将子查询加以转换为适当的查询语言。

    一个单元数据库可以加入若干个联邦系统,每个单元数据库系统可以是集中式的,也可以是分布式的,或者是另外一个FDBMS。
    在这里插入图片描述

    3、主题数据库
    主题数据库,顾名思义,这种数据库是面向主题的,根据不同的业务主题来进行组织和存储。例如,企业中需要建立的典型的主题数据库有:产品、客户、零部件、供应商、订货、员工、文件资料、工程规范等。

    与应用数据库只为一个应用系统服务,或者说根本就是隶属于特定的应用系统不同,主题数据库是为了信息共享。意思就是说,这个数据库是公共数据库,作为一种基础的数据资源而存在,可以给多个应用系统使用。这种数据资源,根据不同的业务主题分门别类,井井有条,一切都为了方便使用。

    主题数据库有一些特点。其中之一是表符合第三范式(3NF),规范化程度还是比较高的。这意味着主题数据库的表中没有冗余列、派生列、计算列这些东东,消除了非主属性对主属性的传递依赖。

    4、联邦数据库与分布式数据库的异同
    (我瞎掰的)

    【相同点】
    数据分布于不同计算机或地方,通过网络连接起来;每个节点(或称子数据库)都有自治能力;以一个统一的数据库对外提供服务。

    【不同点】
    联邦数据库的子数据库可以是异质的,而分布式数据库各节点数据库是同质的;联邦数据库的子数据库不同执行全局应用,而分布式数据库的节点可以通过通信子系统执行全局应用;联邦数据库的子数据库相互之间没有什么联系,数据可能不一样,而分布式数据库的节点可以存在多个副本,分布式数据库的可靠性比联邦数据库要高。本质上,联邦数据库是一个管理软件,本身并不存储数据,而分布式数据库是真正的数据库。

    三、数据仓库的设计方法

    1、自顶向下的方法
    由总体规划和设计开始,通过对原始数据进行抽取、转换和迁移等处理之后,将数据输出至一个集中的数据驻留单元,然后数据和元数据装载进入数据仓库。这样子建立起来的数据仓库就是企业级仓库,之后各个部门再从中获取本部门需要的数据形成从属数据集市。

    投资大,周期长,需求难以确定,开发人员要求高。但有长远价值。

    2、自底向上的方法
    核心思想是从企业最关键部门(或功能需求)开始,先以最少的投资完成当前的需求,获得最快的回报,然后再不断扩充和完善。这种方法最先产生的是独立数据集市,而后从多个独立数据集市抽取数据,形成企业级数据仓库。

    投入少,见效快。

    3、混合法
    上面两种方法结合。

    四、数据仓库的存储和管理

    1、ETL
    数据仓库的真正关键是数据的存储和管理。企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础、针对现有各业务系统的数据,进行抽取、清理、并有效集成,按照主题进行组织,整个过程可以简称为ETL(Extraction-Transformation-Loading,抽取、转换和加载)过程。

    ETL负责将分布的、异构数据源中的数据(例如,关系数据、平面数据文件等)抽取到临时中间层后进行清洗、转换和集成,最后加载到数据仓库或数据集市中,成为数据分析处理(OLAP)和数据挖掘的基础。

    数据仓库是一个独立的数据环境,通过抽取将数据从OLTP等各种源头导入。数据仓库中的数据不要求与源数据库实时同步,ETL可以定期进行。但ETL的操作时间、顺序、成败对数据仓库的信息有效性至关重要。

    2、非结构化数据
    数据仓库的数据通常来源多种多样,面对的数据,既有结构化数据,也会有像图片、视频这类的非结构化数据。如何管理非结构化数据,时数据仓库应用的一个重要问题。

    数据仓库采用元数据来管理非结构化数据。元数据记录数据的文件标识符、索引字、处理日期等信息,凭元数据能找到源文件;而且元数据包含的信息很多,甚至不用看源文件,只看元数据就行。非结构化数据对分析与决策同样有重要意义,但存储成本高,数据仓库不一定要保存这些数据,只要能找到它们就行;即使存储一部分,也可以根据情况变化而清除。

    五、数据的分析处理

    数据处理大致可以分为OLTP和OLAP。OLTP是传统数据库的应用,我们开发的应用程序大部分都使用该模式使用数据库。

    OLAP(联机分析处理)是数据仓库的主要应用。支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

    在这里插入图片描述
    在OLTP中,数据以二维表的形式进行组织,但在OLAP中,数据是多维的。

    六、数据挖掘

    将信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。

    数据挖掘采用各种科学方法,从大量数据中挖掘出隐含的、先前未知的规律和信息,可用于建立决策模型,为各领域提供预测性决策支持。

    1、概述
    1)体系结构
    在这里插入图片描述

    在这里插入图片描述
    2)数据挖掘流程
    (1)问题定义
    熟悉背景知识,弄清用户需求,对目标有清晰明确的定义,搞清楚到底想干什么。

    (2)建立数据挖掘库
    收集要挖掘的数据资源,收集到一个数据库中,一般不直接使用原数据库或者数据仓库。一方面挖掘过程中可能要修改数据,另一方面是统计分析比较复杂,数据仓库不一定支持相关的数据结构。

    好理解,拷贝数据出去以后,随便挖,随便折腾。

    (3)分析数据
    找规律和趋势

    (4)调整数据
    经过上面步骤之后,对数据状态和趋势有了进一步了解,为进一步明确和量化,需要对数据有针对性的增删。

    (5)模型化
    建立知识模型。这是数据挖掘的核心环节。

    (6)评价和解释
    对得到的模型进行检验。既可以拿挖掘库中的数据来检验,也可以取新数据进行检验。

    2、常用技术与方法
    1)挖掘技术
    神经网络,决策树等等

    2)分析技术
    (1)关联分析
    用于发现不同事件之间的关联性

    (2)序列分析
    用于发现一定时间间隔内接连发生的事件,这些事件构成的序列是否具有普遍意义。

    (3)分类分析
    对未知类别的样本进行分类。

    (4)聚类分析
    根据物以类聚的原理,将本身没有类别的样本聚集成不同的组。

    (5)预测方法
    根据样本的已知特征,预测其连续取值过程。

    (6)时间序列分析
    预测发展趋势。

    3、应用
    很多,如
    空间数据挖掘、多媒体数据挖掘、文本数据挖掘。数据挖掘最典型的故事,应该是啤酒和纸尿片。

    展开全文
  • Bing Liu, UIC Web数据挖掘 第2章: 关联规则 & 序列模式 向导 关联规则的基本概念 Apriori算法 挖掘的不同数据格式 使用多个最小支持度挖掘 挖掘类关联规则 序列模式挖掘 总结 关联规则挖掘 由 Agrawal 等人于 1993 ...
  • 基于Web和SQL_ASP技术构建胆石病数据挖掘系统.pdf
  • 针对Web 应用中数据库信息容易遭受SQL注入攻击的问题,提出一种基于数据挖掘技术的SQL注入攻击检测方法,其核心在于查询树特征的提取和转换。首先,在SQL数据库日志中收集内部查询树;然后,提取查询树中的语义和...
  • 针对传统最佳旅游路线规划系统最佳路线规划性能不佳的问题,设计一种基于数据挖掘的最佳旅游路线规划系统。系统的硬件配置为交互模块,交互模块主要由客户机与服务器构成,其中服务器的设置作用是管理数据,其组成...
  • 数据形式和结构也各不相同,可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是 Web 数据信息。
  • 文本挖掘(Text Mining)是数据挖掘的一个分支,它是把文本型信息源作为分析的对象,利用定量计算和定性分析的方法,从中寻找信息的结构、模型、模式等各种隐含的知识,这种知识对用户而言是新颖的,具有潜在价值。...
  • 确定数据挖掘和KDD(来自数据库的知识发现)的过程。 分析不同数据挖掘和KDD算法的适用性。 设计算法以解决与分类和聚类有关的问题,并从数据库中识别关联规则。 应用文本挖掘,Web挖掘,图挖掘以及流和时间序列...
  • 数据库系统---数据挖掘

    千次阅读 2018-08-27 21:10:54
    数据挖掘  随着数据库技术的迅速发展及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统...
  • 在本文中,我们使用了一个独特的工具集来利用 Web 使用数据挖掘技术来识别特定网站的客户端/访问者的导航模式,特别是真正简单的联合 (RSS) 阅读器的网站,基于用户的当前行为通过采取行动用户点击流数据,以便为...
  • WWW上信息增长越来越快,数据量非常庞大,传统搜索引擎虽能检索出一些有价值的信息,但仍...把Web数据挖掘技术应用于搜索引擎中,在服务器端,建立精简的索引数据库,在客户端,挖掘用户的个性化行为,更加高效准确地荻取信息.
  • Web数据挖掘综述

    千次阅读 2012-02-01 21:39:56
    1. 基于WEB 数据挖掘的分类 根据挖掘的对象不同我们可以把基于WEB数据挖掘分为三大类: ² 基于WEB 内容的挖掘(WebContent Mining) ² 基于WEB 结构的挖掘(WebStructure Mining) ² 基于WEB 使用的...
  • 数据挖掘 期末超重点习题含答案(必考)

    千次阅读 多人点赞 2021-12-15 19:27:38
    数据挖掘 期末超重点习题(不挂科) 一、 单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. ...
  • 毕业设计是搜集的关于web数据挖掘方面有关的论文,对于数据挖掘应用与电子商务,发现个性化服务推荐方式。不论那你是学习电子商务还是数据挖掘,该资料对你肯定有帮助
  • 什么是数据挖掘.docx

    2020-10-17 07:27:48
    什么是数据挖掘 数据挖掘 (Data Mining) 又称为数据库中的知识发现 (Knowledge ...挖掘 知识 并非所有的信息发现任务都被视为数据挖掘例如使用数据库管理系统查找个别的记录或通过 因特网的搜索引擎查找特定的 Web

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 47,379
精华内容 18,951
关键字:

web数据挖掘是通过数据库