数据挖掘 订阅
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 [1] 展开全文
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 [1]
信息
外文名
Data mining
相关领域
人工智能、数据库
别    名
资料探勘、数据采矿
中文名
数据挖掘
应用领域
情报检索、数据分析、模式识别等
所属学科
计算机科学
数据挖掘简介
需要是发明之母。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。 [2]  数据挖掘是人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,作出正确的决策。知识发现过程由以下三个阶段组成:①数据准备;②数据挖掘;③结果表达和解释。数据挖掘可以与用户或知识库交互。 [1]  数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。 [1]  近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。数据挖掘利用了来自如下一些领域的思想:①来自统计学的抽样、估计和假设检验;②人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。 [1] 
收起全文
精华内容
下载资源
问答
  • 数据挖掘面试 150 道题(附答案)

    万次阅读 多人点赞 2019-09-21 13:50:38
    1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准...

     

    单选题

    1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)

    A. 关联规则发现

    B. 聚类

    C. 分类

    D. 自然语言处理


    2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A)

    (a) 警察抓小偷,描述警察抓的人中有多少个是小偷的标准。

    (b) 描述有多少比例的小偷给警察抓了的标准。

    A. Precision, Recall 准确率和召回率

    B. Recall, Precision

    C. Precision, ROC

    D. Recall, ROC


    3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)

    A. 频繁模式挖掘

    B. 分类和预测

    C. 数据预处理

    D. 数据流挖掘


    4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)

    A. 分类

    B. 聚类

    C. 关联分析

    D. 隐马尔可夫链


    5. 什么是 KDD? (A)

    A. 数据挖掘与知识发现

    B. 领域知识发现

    C. 文档知识发现

    D. 动态知识发现


    6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A)

    A. 探索性数据分析

    B. 建模描述

    C. 预测建模

    D. 寻找模式和规则


    7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B)

    A. 探索性数据分析

    B. 建模描述

    C. 预测建模

    D. 寻找模式和规则


    8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)

    A. 根据内容检索

    B. 建模描述

    C. 预测建模

    D. 寻找模式和规则


    9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A)

    A. 根据内容检索

    B. 建模描述

    C. 预测建模

    D. 寻找模式和规则


    11. 下面哪种不属于数据预处理的方法? (D)

    A 变量代换

    B 离散化

    C 聚集

    D 估计遗漏值


    12. 假设 12 个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15 在第几个箱子内? (B)

    A 第一个

    B 第二个

    C 第三个

    D 第四个


    13. 上题中,等宽划分时(宽度为 50),15 又在哪个箱子里? (A)

    A 第一个

    B 第二个

    C 第三个

    D 第四个


    14. 下面哪个不属于数据的属性类型:(D)

    A 标称

    B 序数

    C 区间

    D 相异


    15. 在上题中,属于定量的属性类型是:(C)

    A 标称

    B 序数

    C 区间

    D 相异


    16. 只有非零值才重要的二元属性被称作:(C)

    A 计数属性

    B 离散属性

    C 非对称的二元属性

    D 对称属性


    17. 以下哪种方法不属于特征选择的标准方法: (D)

    A 嵌入

    B 过滤

    C 包装

    D 抽样


    18. 下面不属于创建新属性的相关方法的是: (B)

    A 特征提取

    B 特征修改

    C 映射数据到新的空间

    D 特征构造


    19. 考虑值集 {1、2、3、4、5、90},其截断均值(p=20%)是 (C) ?

    A 2

    B 3

    C 3.5

    D 5


    20. 下面哪个属于映射数据到新的空间的方法? (A)

    A 傅立叶变换

    B 特征加权

    C 渐进抽样

    D 维归约


    21. 熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是: (B)

    A 1 比特

    B 2.6 比特

    C 3.2 比特

    D 3.8 比特


    22. 假设属性 income 的最大最小值分别是 12000 元和 98000 元。利用最大最小规范化的方法将属性的值映射到 0 至 1 的范围内。对属性 income 的 73600 元将被转化为:(D)

    A 0.821

    B 1.224

    C 1.458

    D 0.716


    23. 假定用于分析的数据包含属性 age。数据元组中 age 的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为 3。第二个箱子值为:(A)

    A 18.3

    B 22.6

    C 26.8

    D 27.9


    24. 考虑值集 {12, 24, 33, 2, 4, 55, 68, 26},其四分位数极差是:(A)

    A 31

    B 24

    C 55

    D 3


    25. 一所大学内的各年纪人数分别为:一年级 200 人,二年级 160 人,三年级 130 人,四年级 110 人。则年级属性的众数是: (A)

    A 一年级

    B 二年级

    C 三年级

    D 四年级


    26. 下列哪个不是专门用于可视化时间空间数据的技术: (B)

    A 等高线图

    B 饼图

    C 曲面图

    D 矢量场图


    27. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: (D)

    A 有放回的简单随机抽样

    B 无放回的简单随机抽样

    C 分层抽样

    D 渐进抽样


    28. 数据仓库是随着时间变化的, 下面的描述不正确的是 (C)

    A. 数据仓库随时间的变化不断增加新的数据内容;

    B. 捕捉到的新数据会覆盖原来的快照;

    C. 数据仓库随事件变化不断删去旧的数据内容;

    D. 数据仓库中包含大量的综合数据, 这些综合数据会随着时间的变化不断地进行重新综合.


    29. 关于基本数据的元数据是指: (D)

    A. 基本元数据与数据源, 数据仓库, 数据集市和应用程序等结构相关的信息;

    B. 基本元数据包括与企业相关的管理方面的数据和信息;

    C. 基本元数据包括日志文件和简历执行处理的时序调度信息;

    D. 基本元数据包括关于装载和更新处理, 分析处理以及管理方面的信息.


    30. 下面关于数据粒度的描述不正确的是: (C)

    A. 粒度是指数据仓库小数据单元的详细程度和级别;

    B. 数据越详细, 粒度就越小, 级别也就越高;

    C. 数据综合度越高, 粒度也就越大, 级别也就越高;

    D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.


    31. 有关数据仓库的开发特点, 不正确的描述是: (A)

    A. 数据仓库开发要从数据出发;

    B. 数据仓库使用的需求在开发出去就要明确;

    C. 数据仓库的开发是一个不断循环的过程, 是启发式的开发;

    D. 在数据仓库环境中, 并不存在操作型环境中所固定的和较确切的处理流, 数据仓库中数据分析和处理更灵活, 且没有固定的模式


    32. 在有关数据仓库测试, 下列说法不正确的是: (D)

    A. 在完成数据仓库的实施过程中, 需要对数据仓库进行各种测试. 测试工作中要包括单元测试和系统测试.

    B. 当数据仓库的每个单独组件完成后, 就需要对他们进行单元测试.

    C. 系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试.

    D. 在测试之前没必要制定详细的测试计划.


    33. OLAP 技术的核心是: (D)

    A. 在线性;

    B. 对用户的快速响应;

    C. 互操作性.

    D. 多维分析


    34. 关于 OLAP 的特性, 下面正确的是: (D)

    (1) 快速性 (2) 可分析性 (3) 多维性 (4) 信息性 (5) 共享性

    A. (1) (2) (3)

    B. (2) (3) (4)

    C. (1) (2) (3) (4)

    D. (1) (2) (3) (4) (5)


    35. 关于 OLAP 和 OLTP 的区别描述, 不正确的是:(C)

    A. OLAP 主要是关于如何理解聚集的大量不同的数据. 它与 OTAP 应用程序不同.

    B. 与 OLAP 应用程序不同, OLTP 应用程序包含大量相对简单的事务.

    C. OLAP 的特点在于事务量大, 但事务内容比较简单且重复率高.

    D. OLAP 是以数据仓库为基础的, 但其最终数据来源与 OLTP 一样均来自底层的数据库系统, 两者面对的用户是相同的.


    36. OLAM 技术一般简称为” 数据联机分析挖掘”, 下面说法正确的是:(D)

    A. OLAP 和 OLAM 都基于客户机 / 服务器模式, 只有后者有与用户的交互性;

    B. 由于 OLAM 的立方体和用于 OLAP 的立方体有本质的区别.

    C. 基于 WEB 的 OLAM 是 WEB 技术与 OLAM 技术的结合.

    D. OLAM 服务器通过用户图形借口接收用户的分析指令, 在元数据的知道下, 对超级立方体作一定的操作.


    37. 关于 OLAP 和 OLTP 的说法, 下列不正确的是:(A)

    A. OLAP 事务量大, 但事务内容比较简单且重复率高.

    B. OLAP 的最终数据来源与 OLTP 不一样.

    C. OLTP 面对的是决策人员和高层管理人员.

    D. OLTP 以应用为核心, 是应用驱动的.


    38. 设 X={1,2,3} 是频繁项集,则可由 X 产生__(C)__个关联规则。

    A、4

    B、5

    C、6

    D、7


    40. 概念分层图是__(B)__图。

    A、无向无环

    B、有向无环

    C、有向有环

    D、无向有环


    41. 频繁项集、频繁闭项集、最大频繁项集之间的关系是: (C)

    A、频繁项集 频繁闭项集 = 最大频繁项集

    B、频繁项集 = 频繁闭项集 最大频繁项集

    C、频繁项集 频繁闭项集 最大频繁项集

    D、频繁项集 = 频繁闭项集 = 最大频繁项集


    42. 考虑下面的频繁 3 - 项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5} 假定数据集中只有 5 个项,采用 合并策略,由候选产生过程得到 4 - 项集不包含(C)

    A、1,2,3,4

    B、1,2,3,5

    C、1,2,4,5

    D、1,3,4,5


    43. 下面选项中 t 不是 s 的子序列的是 (C)

    A、s=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}>

    B、s=<{2,4},{3,5,6},{8}> t=<{2},{8}>

    C、s=<{1,2},{3,4}> t=<{1},{2}>

    D、s=<{2,4},{2,4}> t=<{2},{4}>


    44. 在图集合中发现一组公共子结构,这样的任务称为 (B)

    A、频繁子集挖掘

    B、频繁子图挖掘

    C、频繁数据项挖掘

    D、频繁模式挖掘


    45. 下列度量不具有反演性的是 (D)

    A、系数

    B、几率

    C、Cohen 度量

    D、兴趣因子


    46. 下列__(A)__不是将主观信息加入到模式发现任务中的方法。

    A、与同一时期其他数据对比

    B、可视化

    C、基于模板的方法

    D、主观兴趣度量


    47. 下面购物篮能够提取的 3 - 项集的最大数量是多少(C)

    ID 购买项

    1 牛奶,啤酒,尿布

    2 面包,黄油,牛奶

    3 牛奶,尿布,饼干

    4 面包,黄油,饼干

    5 啤酒,饼干,尿布

    6 牛奶,尿布,面包,黄油

    7 面包,黄油,尿布

    8 啤酒,尿布

    9 牛奶,尿布,面包,黄油

    10 啤酒,饼干

    A、1

    B、2

    C、3

    D、4


    48. 以下哪些算法是分类算法,(B)

    A. DBSCAN

    B. C4.5

    C. K-Mean

    D. EM


    49. 以下哪些分类方法可以较好地避免样本的不平衡问题, (A)

    A,KNN

    B,SVM

    C,Bayes

    D,神经网络


    50. 决策树中不包含一下哪种结点, (C)

    A, 根结点(root node)

    B, 内部结点(internal node)

    C, 外部结点(external node)

    D, 叶结点(leaf node)


    51. 不纯性度量中 Gini 计算公式为(其中 c 是类的个数) (A)

    A,

    B,

    C,

    D, 


    53. 以下哪项关于决策树的说法是错误的 (C)

    A. 冗余属性不会对决策树的准确率造成不利的影响

    B. 子树可能在决策树中重复多次

    C. 决策树算法对于噪声的干扰非常敏感

    D. 寻找最佳决策树是 NP 完全问题


    54. 在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的 “最好的” 规格来分类,这种方案称为 (B)

    A. 基于类的排序方案

    B. 基于规则的排序方案

    C. 基于度量的排序方案

    D. 基于规格的排序方案。


    55. 以下哪些算法是基于规则的分类器 (A)

    A. C4.5

    B. KNN

    C. Naive Bayes

    D. ANN


    56. 如果规则集 R 中不存在两条规则被同一条记录触发,则称规则集 R 中的规则为(C);

    A. 无序规则

    B. 穷举规则

    C. 互斥规则

    D.有序规则


    57. 如果对属性值的任一组合,R 中都存在一条规则加以覆盖,则称规则集 R 中的规则为 (B)

    A. 无序规则

    B. 穷举规则

    C. 互斥规则

    D. 有序规则


    58. 如果规则集中的规则按照优先级降序排列,则称规则集是 (D)

    A, 无序规则

    B,穷举规则

    C, 互斥规则

    D,有序规则


    59. 如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为(A)

    A. 无序规则

    B. 穷举规则

    C. 互斥规则

    D. 有序规则


    60. 考虑两队之间的足球比赛:队 0 和队 1。假设 65% 的比赛队 0 胜出,剩余的比赛队 1 获胜。队 0 获胜的比赛中只有 30% 是在队 1 的主场,而队 1 取胜的比赛中 75% 是主场获胜。如果下一场比赛在队 1 的主场进行队 1 获胜的概率为 (C)

    A. 0.75

    B. 0.35

    C,0.4678

    D, 0.5738


    61. 以下关于人工神经网络(ANN)的描述错误的有 (A)

    A,神经网络对训练数据中的噪声非常鲁棒

    B,可以处理冗余特征

    C,训练 ANN 是一个很耗时的过程

    D,至少含有一个隐藏层的多层神经网络


    62. 通过聚集多个分类器的预测来提高分类准确率的技术称为 (A)

    A, 组合 (ensemble)

    B, 聚集 (aggregate)

    C,合并 (combination)

    D,投票 (voting)


    63. 简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( B )

    A、层次聚类

    B、划分聚类

    C、非互斥聚类

    D、模糊聚类


    64. 在基本 K 均值算法里,当邻近度函数采用( A )的时候,合适的质心是簇中各点的中位数。

    A、曼哈顿距离

    B、平方欧几里德距离

    C、余弦距离

    D、Bregman 散度


    65.( C )是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。

    A、边界点

    B、质心

    C、离群点

    D、核心点


    66. BIRCH 是一种( B )。

    A、分类器

    B、聚类算法

    C、关联分析算法

    D、特征选择算法


    67. 检测一元正态分布中的离群点,属于异常检测中的基于( A )的离群点检测。

    A、统计方法

    B、邻近度

    C、密度

    D、聚类技术


    68.( C )将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。

    A、MIN(单链)

    B、MAX(全链)

    C、组平均

    D、Ward 方法


    69.( D )将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚层次聚类技术。

    A、MIN(单链)

    B、MAX(全链)

    C、组平均

    D、Ward 方法


    70. DBSCAN 在最坏情况下的时间复杂度是( B )。

    A、O(m)

    B、O(m2)

    C、O(log m)

    D、O(m*log m)


    71. 在基于图的簇评估度量表里面,如果簇度量为 proximity(Ci , C),簇权值为 mi ,那么它的类型是( C )。

    A、基于图的凝聚度

    B、基于原型的凝聚度

    C、基于原型的分离度

    D、基于图的凝聚度和分离度


    72. 关于 K 均值和 DBSCAN 的比较,以下说法不正确的是( A )。

    A、K 均值丢弃被它识别为噪声的对象,而 DBSCAN 一般聚类所有对象。

    B、K 均值使用簇的基于原型的概念,而 DBSCAN 使用基于密度的概念。

    C、K 均值很难处理非球形的簇和不同大小的簇,DBSCAN 可以处理不同大小和不同形状的簇。

    D、K 均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是 DBSCAN 会合并有重叠的簇。


    73. 以下是哪一个聚类算法的算法流程:①构造 k-最近邻图。②使用多层图划分算法划分图。③repeat:合并关于相对互连性和相对接近性而言,最好地保持簇的自相似性的簇。④until:不再有可以合并的簇。( C )。

    A、MST

    B、OPOSSUM

    C、Chameleon

    D、Jarvis-Patrick(JP)


    74. 考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的类,因为这两个对象一般不会共享许多近邻,所以应该选择( D )的相似度计算方法。

    A、平方欧几里德距离

    B、余弦距离

    C、直接相似度

    D、共享最近邻


    75. 以下属于可伸缩聚类算法的是( A )。

    A、CURE

    B、DENCLUE

    C、CLIQUE

    D、OPOSSUM


    76. 以下哪个聚类算法不是属于基于原型的聚类( D )。

    A、模糊 c 均值

    B、EM 算法

    C、SOM

    D、CLIQUE


    77. 关于混合模型聚类算法的优缺点,下面说法正确的是( B )。

    A、当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理。

    B、混合模型比 K 均值或模糊 c 均值更一般,因为它可以使用各种类型的分布。

    C、混合模型很难发现不同大小和椭球形状的簇。

    D、混合模型在有噪声和离群点时不会存在问题。


    78. 以下哪个聚类算法不属于基于网格的聚类算法( D )。

    A、STING

    B、WaveCluster

    C、MAFIA

    D、BIRCH


    79. 一个对象的离群点得分是该对象周围密度的逆。这是基于( C )的离群点定义。

    A.概率

    B、邻近度

    C、密度

    D、聚类


    80. 下面关于 Jarvis-Patrick(JP)聚类算法的说法不正确的是( D )。

    A、JP 聚类擅长处理噪声和离群点,并且能够处理不同大小、形状和密度的簇。

    B、JP 算法对高维数据效果良好,尤其擅长发现强相关对象的紧致簇。

    C、JP 聚类是基于 SNN 相似度的概念。

    D、JP 聚类的基本时间复杂度为 O(m)。

     

    多选题

    1. 通过数据挖掘过程所推倒出的关系和摘要经常被称为:(A B)

    A. 模型

    B. 模式

    C. 模范

    D. 模具


    2 寻找数据集中的关系是为了寻找精确、方便并且有价值地总结了数据的某一特征的表示,这个过程包括了以下哪些步骤? (A B C D)

    A. 决定要使用的表示的特征和结构

    B. 决定如何量化和比较不同表示拟合数据的好坏

    C. 选择一个算法过程使评分函数最优

    D. 决定用什么样的数据管理原则以高效地实现算法。


    3. 数据挖掘的预测建模任务主要包括哪几大类问题? (A B)

    A. 分类

    B. 回归

    C. 模式发现

    D. 模式匹配


    4. 数据挖掘算法的组件包括:(A B C D)

    A. 模型或模型结构

    B. 评分函数

    C. 优化和搜索方法

    D. 数据管理策略


    5. 以下哪些学科和数据挖掘有密切联系?(A D)

    A. 统计

    B. 计算机组成原理

    C. 矿产挖掘

    D. 人工智能


    6. 在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法有: (ABCDE)

    A 忽略元组

    B 使用属性的平均值填充空缺值

    C 使用一个全局常量填充空缺值

    D 使用与给定元组属同一类的所有样本的平均值

    E 使用最可能的值填充空缺值


    7. 下面哪些属于可视化高维数据技术 (ABCE)

    A 矩阵

    B 平行坐标系

    C 星形坐标

    D 散布图

    E Chernoff 脸


    8. 对于数据挖掘中的原始数据,存在的问题有: (ABCDE)

    A 不一致

    B 重复

    C 不完整

    D 含噪声

    E 维度高


    9. 下列属于不同的有序数据的有:(ABCE)

    A 时序数据

    B 序列数据

    C 时间序列数据

    D 事务数据

    E 空间数据


    10. 下面属于数据集的一般特性的有:(B C D)

    A 连续性

    B 维度

    C 稀疏性

    D 分辨率

    E 相异性


    11. 下面属于维归约常用的线性代数技术的有: (A C)

    A 主成分分析

    B 特征提取

    C 奇异值分解

    D 特征加权

    E 离散化


    12. 下面列出的条目中,哪些是数据仓库的基本特征: (ACD)

    A. 数据仓库是面向主题的

    B. 数据仓库的数据是集成的

    C. 数据仓库的数据是相对稳定的

    D. 数据仓库的数据是反映历史变化的

    E. 数据仓库是面向事务的


    13. 以下各项均是针对数据仓库的不同说法,你认为正确的有(BCDE )。

    A.数据仓库就是数据库

    B.数据仓库是一切商业智能系统的基础

    C.数据仓库是面向业务的,支持联机事务处理(OLTP)

    D.数据仓库支持决策而非事务处理

    E.数据仓库的主要目标就是帮助分析,做长期性的战略制定


    14. 数据仓库在技术上的工作过程是: (ABCD)

    A. 数据的抽取

    B. 存储和管理

    C. 数据的表现

    D. 数据仓库设计

    E. 数据的表现


    15. 联机分析处理包括以下哪些基本分析功能? (BCD)

    A. 聚类

    B. 切片

    C. 转轴

    D. 切块

    E. 分类


    16. 利用 Apriori 算法计算频繁项集可以有效降低计算频繁集的时间复杂度。在以下的购物篮中产生支持度不小于 3 的候选 3 - 项集,在候选 2 - 项集中需要剪枝的是(BD)

    ID 项集

    1 面包、牛奶

    2 面包、尿布、啤酒、鸡蛋

    3 牛奶、尿布、啤酒、可乐

    4 面包、牛奶、尿布、啤酒

    5 面包、牛奶、尿布、可乐

    A、啤酒、尿布

    B、啤酒、面包

    C、面包、尿布

    D、啤酒、牛奶


    17. 下表是一个购物篮,假定支持度阈值为 40%,其中(A D)是频繁闭项集。

    TID 项

    1 abc

    2 abcd

    3 bce

    4 acde

    5 de

    A、abc

    B、ad

    C、cd

    D、de


    18. Apriori 算法的计算复杂度受(ABCD)影响。

    A、支持度阀值

    B、项数(维度)

    C、事务数

    D、事务平均宽度


    19. 非频繁模式__(AD)__

    A、其支持度小于阈值

    B、都是不让人感兴趣的

    C、包含负模式和负相关模式

    D、对异常数据项敏感


    20. 以下属于分类器评价或比较尺度的有: (ACD)

    A, 预测准确度

    B, 召回率

    C, 模型描述的简洁度

    D, 计算复杂度


    21. 在评价不平衡类问题分类的度量方法有如下几种,(ABCD)

    A. F1 度量

    B. 召回率(recall)

    C. 精度(precision)

    D. 真正率(ture positive rate,TPR)


    22. 贝叶斯信念网络 (BBN) 有如下哪些特点, (AB)

    A, 构造网络费时费力

    B, 对模型的过分问题非常鲁棒

    C, 贝叶斯网络不适合处理不完整的数据

    D, 网络结构确定后,添加变量相当麻烦


    23. 如下哪些不是最近邻分类器的特点, (C)

    A, 它使用具体的训练实例进行预测,不必维护源自数据的模型

    B, 分类一个测试样例开销很大

    C, 最近邻分类器基于全局信息进行预测

    D, 可以生产任意形状的决策边界


    24. 如下那些不是基于规则分类器的特点,(AC)

    A, 规则集的表达能力远不如决策树好

    B, 基于规则的分类器都对属性空间进行直线划分,并将类指派到每个划分

    C, 无法被用来产生更易于解释的描述性模型

    D, 非常适合处理类分布不平衡的数据集


    25. 以下属于聚类算法的是( ABD )。

    A、K 均值

    B、DBSCAN

    C、Apriori

    D、Jarvis-Patrick(JP)


    26.( CD )都属于簇有效性的监督度量。

    A、轮廓系数

    B、共性分类相关系数

    C、熵

    D、F 度量


    27. 簇有效性的面向相似性的度量包括( BC )。

    A、精度

    B、Rand 统计量

    C、Jaccard 系数

    D、召回率


    28.( ABCD )这些数据特性都是对聚类分析具有很强影响的。

    A、高维性

    B、规模

    C、稀疏性

    D、噪声和离群点


    29. 在聚类分析当中,( AD )等技术可以处理任意形状的簇。

    A、MIN(单链)

    B、MAX(全链)

    C、组平均

    D、Chameleon


    30. ( AB )都属于分裂的层次聚类算法。

    A、二分 K 均值

    B、MST

    C、Chameleon

    D、组平均

     

    判断题

    1. 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。 (对)

    2. 数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。(对)3. 图挖掘技术在社会网络分析中扮演了重要的角色。(对)

    4. 模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。(错)

    5. 寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。(错)

    6. 离群点可以是合法的数据对象或者值。    (对)

    7. 离散属性总是具有有限个值。        (错)

    8. 噪声和伪像是数据错误这一相同表述的两种叫法。     (错)

    9. 用于分类的离散化方法之间的根本区别在于是否使用类信息。   (对)

    10. 特征提取技术并不依赖于特定的领域。      (错)

    11. 序列数据没有时间戳。      (对)

    12. 定量属性可以是整数值或者是连续值。     (对)

    13. 可视化技术对于分析的数据类型通常不是专用性的。    (错)

    14. DSS 主要是基于数据仓库. 联机数据分析和数据挖掘技术的应用。(对)

    15. OLAP 技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。 (对)

    16. 商业智能系统与一般交易系统之间在系统设计上的主要区别在于:后者把结构强加于商务之上,一旦系统设计完毕,其程序和规则不会轻易改变;而前者则是一个学习型系统,能自动适应商务不断变化的要求。 (对)

    17. 数据仓库中间层 OLAP 服务器只能采用关系型 OLAP (错)

    18.数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部分. (错)

    19. Web 数据挖掘是通过数据库仲的一些属性来预测另一个属性, 它在验证用户提出的假设过程中提取信息. (错)

    21. 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。(错)

    22. 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数(对)。

    23. 先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。(错)

    24. 如果规则 不满足置信度阈值,则形如 的规则一定也不满足置信度阈值,其中 是 X 的子集。(对)

    25. 具有较高的支持度的项集具有较高的置信度。(错)

    26. 聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型 (或函数),以便能够使用模型预测类标记未知的对象类。 (错)

    27. 分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。(对)

    28. 对于 SVM 分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。 (对)

    29. Bayes 法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。 (错)

    30. 分类模型的误差大致分为两种:训练误差(training error)和泛化误差(generalization error). (对)

    31. 在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。 (错)

    32. SVM 是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier) (错)

    33. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。(错)

    34. 聚类分析可以看作是一种非监督的分类。(对)

    35. K 均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。(错)

    36. 给定由两次运行 K 均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。(错)

    37. 基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。(对)

    38. 如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。(对)

    39. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。(错)40. DBSCAN 是相对抗噪声的,并且能够处理任意形状和大小的簇。(对)

    展开全文
  • 数据挖掘

    千次阅读 多人点赞 2019-04-16 16:26:36
    数据挖掘其实是一种深层次的数据分析方法。数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。 应用的技术...

    数据挖掘其实是一种深层次的数据分析方法。数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
    应用的技术包括:数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面。

    数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先知,有效和可实用三个特征。

    数据挖掘的目标是
    从数据库中发现隐含的、有意义的知识,主要有以下五类功能。
        1.自动预测趋势和行为数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。

        2.关联分析数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。

        3.聚类数据库中的记录可被划分为一系列有意义的子集,即聚类。

        4.概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。

        5.偏差检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。

      数据挖掘技术包括关联分析、序列分析、分类、预测、聚类分析及时间序列分析等。

      1.关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也
    经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是
    事件发生的概率和条件概率应该符合一定的统计意义。

    2.序列分析
    序列分析技术主要用于发现一定时间间隔内接连发生的事件。这些事件构成一个序列,发现的序列应该具有普遍意义,

    3.分类分析
    分类分析通过分析具有类别的样本的特点,得到决定样本属于各种类别的规则或方法。
    主要方法有基于统计学的贝叶斯方法、神经网络方法、决策树方法及支持向量机。

    4.聚类分析
    聚类分析是根据物以类聚的原理,将本身没有类别的样本聚集成不同的组,并且对每一个这样的组进行描述的过程。其主要依据是聚到同一个组中的样本应该彼此相似,而属于不同组的样本应该足够不相似。

    5.预测
    预测与分类类似,但预测是根据样本的已知特征估算某个连续类型的变量的取值的过程,
    而分类则只是用于判别样本所属的离散类别而已。预测常用的技术是回归分析。

    6.时间序列
    分析时间序列分析的是随时间而变化的事件序列,目的是预测未来发展趋势,或者寻找相似发展模式或者是发现周期性发展规律。

    数据挖掘的流程大致如下:

    1.问题定义在开始数据挖掘之前,最先的也是最重要的要求就是熟悉背景知识,弄清
    用户的需求。缺少了背景知识,就不能明确定义要解决的问题,就不能为挖掘准备优质的数
    据,也很难正确地解释得到的结果。要想充分发挥数据挖掘的价值,必须对目标有一个清晰
    明确的定义,即决定到底想干什么。

    2.建立数据挖掘库
    要进行数据挖掘必须收集要挖掘的数据资源。一般建议把要挖掘的数据都收集到一个数
    据库中,而不是采用原有的数据库或数据仓库。这是因为大部分情况下需要修改要挖掘的数
    据,而且还会遇到采用外部数据的情况;另外,数据挖掘还要对数据进行各种纷繁复杂的统
    计分析,而数据仓库可能不支持这些数据结构。
    3.分析数据
    分析数据就是通常所进行的对数据深入调查的过程。从数据集中找出规律和趋势,用聚
    类分析区分类别,最终要达到的目的就是搞清楚多因素相互影响的、十分复杂的关系,发现
    因素之间的相关性。
    4.调整数据
    通过上述步骤的操作,对数据的状态和趋势有了进一步的了解,这时要尽可能对问题解
    决的要求能进一步明确化、进一步量化。针对问题的需求对数据进行增删,按照对整个数据
    挖掘过程的新认识组合或生成一个新的变量,以体现对状态的有效描述。
    5.模型化在问题进一步明确,数据结构和内容进一步调整的基础上,就可以建立形成知识的模型。
    这一步是数据挖掘的核心环节,一般运用神经网络、决策树、数理统计、时间序列分析等方
    法来建立模型。
    6.评价和解释
    上面得到的模式模型,有可能是没有实际意义或没有实用价值的,也有可能是其不能准
    确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确定哪些是有
    效的、有用的模式。评估的一种办法是直接使用原先建立的挖掘数据库中的数据来进行检验,
    另一种办法是另找一批数据并对其进行检验,再一种办法是在实际运行的环境中取出新鲜数
    据进行检验

    展开全文
  • 数据挖掘数据挖掘数据挖掘数据挖掘数据挖掘数据挖掘数据挖掘数据挖掘
  • 数据挖掘数据挖掘数据挖掘数据挖掘数据挖掘数据挖掘数据挖掘数据挖掘数据挖掘数据挖掘
  • 数据挖掘与数据分析

    万次阅读 多人点赞 2018-05-28 13:58:14
    一、数据挖掘和数据分析概述 数据挖掘和数据分析都是从数据中提取一些有价值的信息,二者有很多联系,但是二者的侧重点和实现手法有所区分。 数据挖掘和数据分析的不同之处: 1、在应用工具上,数据挖掘一般要通过...

    一、数据挖掘和数据分析概述

    数据挖掘和数据分析都是从数据中提取一些有价值的信息,二者有很多联系,但是二者的侧重点和实现手法有所区分。 
    数据挖掘和数据分析的不同之处: 
    1、在应用工具上,数据挖掘一般要通过自己的编程来实现需要掌握编程语言;而数据分析更多的是借助现有的分析工具进行。 
    2、在行业知识方面,数据分析要求对所从事的行业有比较深的了解和理解,并且能够将数据与自身的业务紧密结合起来;而数据挖掘不需要有太多的行业的专业知识。 
    3、交叉学科方面,数据分析需要结合统计学、营销学、心理学以及金融、政治等方面进行综合分析;数据挖掘更多的是注重技术层面的结合以及数学和计算机的集合 
    数据挖掘和数据分析的相似之处: 
    1、数据挖掘和数据分析都是对数据进行分析、处理等操作进而得到有价值的知识。 
    2、都需要懂统计学,懂数据处理一些常用的方法,对数据的敏感度比较好。 
    3、数据挖掘和数据分析的联系越来越紧密,很多数据分析人员开始使用编程工具进行数据分析,如SAS、R、SPSS等。而数据挖掘人员在结果表达及分析方面也会借助数据分析的手段。二者的关系的界限变得越来越模糊。

    二、数据挖掘

     

    1 数学预备知识 

    概率论:支撑整个数据挖掘算法和机器学习算法的数学基础,要熟悉常见的一些概率分布。 
    矩阵论:线性代数中对数据挖掘最有用的部分,还有一些线性空间相关知识也很重要。 
    信息论:将信息和数学紧密连接在一起并完美的表达的桥梁,需要掌握信息熵、信息增益等相关知识。 
    统计学:数据分析最早的依赖基础,通常和概率论一起应用,现在的机器学习和数据挖掘很多都是基于统计的,常见的均值、方差、协方差等都要熟练掌握。

     

    2 编程基础 

    数据挖掘需要一定的编程基础,因为要实现模型以及数据的处理很多工作都是需要程序来进行的,数据挖掘常用的编程语言如下: 
    SQL:数据库的熟练使用是任何数据挖掘人员必不可少的技能。 
    C++ :有很多的标准模板库以及机器学习模型库进行调用可以方便编程实现。 
    Python:对字符串处理有极大的优势,是解释型语言,实现简单,而且有很多开源的机器学习模型库的支持,可处理大规模数据。 
    Matlab:拥有强大的矩阵运算,也是解释型语言,有很多发展较成熟库可以直接调用,支持数据结果的可视化表示,但是处理数据量有限。 
    R:近年兴起的数据分析编程语言,数据可视化做的比较好,语法简单,学习成本很低,很多非程序设计人员都可以数量掌握。 
    Java:使用范围最广的编程语言,有很多社区进行交流,进行编程实现具有灵活高效的特点,不足之处就是实现功能的代码量较大(相对于其他数据挖掘编程语言)。 
    Scala: 一种具有面向对象风格、函数式风格、更高层的并发模型的编程语言。同时Scala是大数据处理平台Spark的实现语言。

     

    3 数据挖掘的模型知识 

    机器学习和数据挖掘是紧密相关的,要进行数据挖掘需要掌握一些机器学习所用的方法和模型知识,通过模型的训练可以得到处理数据的最优的模型。数据挖掘常用的模型如下:

     

    3.1 监督学习模型 

    就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就具有了对未知数据进行分类的能力。

     

    3.1.1决策树: 

    决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。它采用自顶向下的递归方式,在决策树的内部节点进行属性的比较,并根据不同属性值判断从该节点向下的分支,在决策树的叶节点得到结论。 
    主要的决策树算法有ID3、C4.5(C5.0)、CART、PUBLIC、SLIQ和SPRINT算法等。它们在选择测试属性采用的技术、生成的决策树的结构、剪枝的方法以及时刻,能否处理大数据集等方面都有各自的不同之处。

     

    3.1.2 贝叶斯方法: 

    贝叶斯(Bayes)分类算法是一类利用概率统计知识进行分类的算法,如朴素贝叶斯(Naive Bayes)算法。这些算法主要利用Bayes定理来预测一个未知类别的样本属于各个类别的可能性,选择其中可能性最大的一个类别作为该样本的最终类别。由于贝叶斯定理的成立本身需要一个很强的条件独立性假设前提,而此假设在实际情况中经常是不成立的,因而其分类准确性就会下降。为此就出现了许多降低独立性假设的贝叶斯分类算法,如TAN(Tree Augmented Native Bayes)算法,它是在贝叶斯网络结构的基础上增加属性对之间的关联来实现的。

     

    3.1.3 神经网络 

    神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在这种模型中,大量的节点(称”神经元”)之间相互联接构成网络,即”神经网络”,以达到处理信息的目的。神经网络通常需要进行训练,训练的过程就是网络进行学习的过程。训练改变了网络节点的连接权的值使其具有分类的功能,经过训练的网络就可用于对象的识别。目前,神经网络已有上百种不同的模型,常见的有BP神经网络、径向基RBF网络、Hopfield网络、随机神经网络(Boltzmann机)、竞争神经网络(Hamming网络,自组织映射网络)等。但是当前的神经网络仍普遍存在收敛速度慢、计算量大、训练时间长和不可解释等缺点。

     

    3.1.4 支持向量机(SVM) 

    支持向量机(SVM,Support Vector Machine)是根据统计学习理论提出的一种新的学习方法,它的最大特点是根据结构风险最小化准则,以最大化分类间隔构造最优分类超平面来提高学习机的泛化能力,较好地解决了非线性、高维数、局部极小点等问题。对于分类问题,支持向量机算法根据区域中的样本计算该区域的决策曲面,由此确定该区域中未知样本的类别。

     

    3.1.5 集成学习分类模型 

    集成学习是一种机器学习范式,它试图通过连续调用单个的学习算法,获得不同的基学习器,然后根据规则组合这些学习器来解决同一个问题,可以显著的提高学习系统的泛化能力。主要采用(加权)投票的方法组合多个基学习器,常见的算法有装袋(Bagging)、提升/推进(Boosting)、随机森林等。集成学习由于采用了投票平均的方法组合多个分类器,所以有可能减少单个分类器的误差,获得对问题空间模型更加准确的表示,从而提高分类器的分类准确度。

     

    3.1.6 其他分类学习模型 

    此外还有logistics回归模型、隐马尔科夫分类模型(HMM)、基于规则的分类模型等众多的分类模型,对于处理不同的数据、分析不同的问题,各种模型都有自己的特性和优势。

     

    3.2 无监督学习模型 

    在非监督式学习中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构,应用场景包括关联规则的学习以及聚类等。常见的聚类算法如下所示:

     

    3.2.1 K-means聚类 

    K-means算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。

     

    3.2.2 基于密度的聚类 

    根据密度完成对象的聚类。它根据对象周围的密度(如DBSCAN)不断增长聚类。典型的基于密度方法包括:DBSCAN(Densit-based Spatial Clustering of Application with Noise):该算法通过不断生长足够高密度区域来进行聚类;它能从含有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义为一组“密度连接”的点集。OPTICS(Ordering Points To Identify the Clustering Structure):并不明确产生一个聚类,而是为自动交互的聚类分析计算出一个增强聚类顺序。

     

    3.2.3 层次聚类方法 

    层次聚类方法对给定的数据集进行层次的分解,直到某种条件满足为止。层次凝聚的代表是AGNES算法,层次分裂的代表是DIANA算法。具体又可分为凝聚的,分裂的两种方案。 
    凝聚的层次聚类是一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被满足,绝大多数层次聚类方法属于这一类,它们只是在簇间相似度的定义上有所不同。 
    分裂的层次聚类与凝聚的层次聚类相反,采用自顶向下的策略,它首先将所有对象置于同一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一簇,或者达到了某个终止条件。

     

    3.2.4 谱聚类 

    谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远,以达到常见的聚类的目的。其中的最优是指最优目标函数不同,可以是割边最小分割, 也可以是分割规模差不多且割边最小的分割。谱聚类能够识别任意形状的样本空间且收敛于全局最优解,其基本思想是利用样本数据的相似矩阵(拉普拉斯矩阵)进行特征分解后得到的特征向量进行聚类。 
    此外常用的聚类方法还有基于网格的聚类、模糊聚类算法、自组织神经网络SOM、基于统计学的聚类算法(COBWeb、AutoClass)等。

     

    3.3 半监督学习 
    3.3.1 半监督学习概述 

    半监督学习算法要求输入数据部分被标识,部分没有被标识,这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测。如图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM.)等。

     

    3.3.2 Multi-view algorithm(多视角算法) 

    一般多用于可以进行自然特征分裂的数据集中.考虑特殊情况(每个数据点表征两个特征):每一个数据点看成是两个特征的集合,然后利用协同训练(Co-training algorithm)进行处理.协同训练(co-training)算法,此类算法隐含地利用了聚类假设或流形假设,它们使用两个或多个学习器,在学习过程中,这些学习器挑选若干个置信度高的未标记示例进行相互标记,从而使得模型得以更新。

     

    3.3.3 Graph-Based Algorithms(基于图的算法) 

    基于图的算法是基于图正则化框架的半监督学习算法,此类算法直接或间接地利用了流形假设,它们通常先根据训练例及某种相似度度量建立一个图,图中结点对应了(有标记或未标记)示例,边为示例间的相似度,然后,定义所需优化的目标函数并使用决策函数在图上的光滑性作为正则化项来求取最优模型参数。

     

    **3.4 文本处理模型 
    3.4.1 分词模型** 

    分词模型主要在处理文本过程中使用,在此特指中文分词模型。中文分词算法现在一般分为三类:基于字符串匹配,基于理解,基于统计的分词。 
    基于字符串匹配分词: 
    机械分词算法。将待分的字符串与一个充分大的机器词典中的词条进行匹配。分为正向匹配和逆向匹配;最大长度匹配和最小长度匹配;单纯分词和分词与标注过程相结合的一体化方法。所以常用的有:正向最大匹配,逆向最大匹配,最少切分法。实际应用中,将机械分词作为初分手段,利用语言信息提高切分准确率。优先识别具有明显特征的词,以这些词为断点,将原字符串分为较小字符串再机械匹配,以减少匹配错误率;或将分词与词类标注结合。 
    基于理解分词: 
    分词同时进行句法语义分析等模拟人对句子的理解,包括分词子系统,句法语义系统,总控部分。总控部分协调下,分词字系统可以获得有关词,句子等的句法和语义信息对分词歧义进行判断。需要大量的语言知识信息。 
    基于统计分词: 
    相邻的字同时出现的次数越多,越有可能构成一个词语,对语料中的字组频度进行统计,不需要切词字典,但错误率很高。可以考虑:使用基本词典进行关键词分词,使用统计方法识别新词组,两者结合。

     

    3.4.2 TF-IDF模型 

    TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果中出现的顺序。 
    TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF反文档频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率(另一说:TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数)。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。(另一说:IDF反文档频率(Inverse Document Frequency)是指果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。)但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处.

     

    3.4.3 LDA模型 

    LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。 
    LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。

     

    4 模型评价指标 
    4.1 模型评价概述 

    建模构建过程中会得出一系列的分析结果、模式或模型。同一个采样数据可以利用多种数据分析方法和模型进行分析,模型评价的目的之一就是从这些模型中自动找出一个最好的模型出来,另外就是要针对业务对模型进行解释和应用。 
    模型效果评价通常分两步,第一步是直接使用原来建立模型的样本数据来进行检验。假如这一步都通不过,那么所建立的决策支持信息价值就不太大了。一般来说,在这一步应得到较好的评价。这说明你确实从这批数据样本中挖掘出了符合实际的规律性。第一步通过后,第二步是另外找一批数据,已知这些数据是反映客观实际的、规律性的。这次的检验效果可能会比前一种差,差多少是要注意的,若是差到所不能容忍程度,那就要考虑第一步构建的样本数据是否具有充分的代表性,或是模型本身是否够完善。这时候可能要对前面的工作进行反思了。若这一步也得到了肯定的结果时,那所建立的数据挖掘模型应得到很好的评价了。

     

    4.2 常用的模型评价方法 
    4.2.1 预测准确率 

    预测准确率又称作精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率。取值在0和1之间,数值越接近1,查准率就越高。 
    计算公式:正确率 = 提取出的正确信息条数 / 提取出的信息条数

     

    4.2.2 召回率 

    召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。取值在0和1之间,数值越接近1,查全率就越高。 
    计算公式:召回率 = 提取出的正确信息条数 / 样本中的信息条数

     

    4.2.3 综合指标F值 

    F值为正确率和召回率的调和平均值,能够综合平衡的去表示模型的性能效果。 
    计算公式:F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率)

     

    4.2.4 ROC曲线 

    受试者工作特性(Receiver Operating Characteristic,ROC)曲线是一种非常有效的模型评价方法,可为选定临界值给出定量提示。将灵敏度(Sensitivity)设在纵轴,1-特异性(1-Specificity)设在横轴,就可得出ROC曲线图。该曲线下的积分面积(Area)大小与每种方法优劣密切相关,反映分类器正确分类的统计概率,其值越接近1说明该算法效果越好。

     

    4.2.5 数据相似度 

    聚类分群效果可以通过向量数据之间的相似度来衡量,向量数据之间的相似度定义为两个向量之间的距离(实时向量数据与聚类中心向量数据),距离越近则相似度越大,即该实时向量数据归为某个聚类。常用的相似度计算方法有:欧几里得距离法(Euclidean Distance)、皮尔逊相关系数法(Pearson Correlation Coefficient)、Cosine相似度和Tanimoto系数法。

     

    4.2.6 其他的模型评价方法 

    除上述的模型评价方法外,还有一些较为详细的模型评价方法。如可以用相对绝对误差、平均绝对误差、根均方差、相对平方根误差等指标来衡量。此外模型的鲁棒性和容错性以及处理数据的速度、能够处理数据的规模等都是衡量一个模型的重要指标。

    5 数据挖掘开发平台

     

    5.1 单机模型开发平台 

    直接在单机上部署数据挖掘开发环境,比如说安装mysql+python就可以搭建一个数据挖掘环境。

     

    5.2分布式集群开发平台 
    5.2.1 Hadoop集群环境 

    Hadoop 是一个通过分布式集群技术,将多个物理机或虚拟机(VMware等厂商的虚拟化技术在一个物理机上运行多个虚拟机)当作一台机器运行。基于Hadoop的数据挖掘数据挖掘一旦完成,就会生成挖掘结果即模式。

     

    5.4.2 Spark集群环境 

    Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。 
    6 数据挖掘的开发流程 
    6.1 数据获取 
    6.2 数据清洗 
    6.3 数据变换 
    6.4 特征工程 
    6.5 模型训练 
    6.6 模型优化 
    6.7 结果分析

    三、数据分析

    相比于数据挖掘,数据分析更多在于利用一定的工具和一定的专业知识分析数据。最初的数据分析来源于统计学家和经济学家的一些理论,进而结合一定的实际应用场景解决问题。数据分析更多的是偏重于业务层次的,对于大多数非计算机相关专业人士来说,掌握一般的数据分析方法是十分有用的,入门上手也相对简单。

    1 数学和专业的预备知识

    概率论:数据分析的重要数学基础,要熟悉常见的一些概率分布。 
    统计学:数据分析最早的依赖基础,通常和概率论一起应用,数据分析要掌握常见的均值、方差、协方差等。 
    心理学:数据分析往往要结合不同的学科知识进行分析,在数据分析的过程中,分析人员往往要结合用户的心理进行结果的调整和分析。 
    专业知识:一般来说,数据分析人员是对某一特定领域进行分析,这就要求分析人员具备一定的行业的专业知识。

    2 使用数据分析软件

    SPSS:功能非常强大非常专业的数据统计软件,界面友好,输出结果美观漂亮。SPSS软件具有信息的采集、处理、分析进行全面评估和预测等功能。包含广义线性混合模型、自动线性模型、一个统计网页入口portal和直复营销direct marketing功能。 
    SAS: 是一个模块化、集成化的大型应用软件系统,由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等等。 
    Excel:办公套件中最能胜任数据分析的软件,简单实用。 
    Sql:非计算机专业的数据分析人员要操作数据必备的数据库语言。 
    R: 近年兴起的数据分析编程语言,数据可视化做的比较好,语法简单,学习成本很低,很多非程序设计人员都可以数量掌握。

     

    3 数据分析模型选取 

    数据分析人员可以借助一些现场的分析软件进行分析,这些软件集成了一些良好的分析模型,分析人员可以根据自己的实际应用场景进行合适的模型选择。基本的分析方法有:对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等。高级的分析方法有:相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列等。

     

    4 分析结果展示 

    数据分析的结果通过一些可视化图形或者报表形式进行展示能够增强对分析结果的理解。常用的的分析结果展示方法有: 
    图表展示:用一些柱状图、饼图、盒图等进行展示。 
    曲线展示:运用走势曲线或者ROC曲线进行展示。 
    文字展示:通过语言文字描述进行结果的分析展示,但是不够直观。

     

    5 数据分析的流程 

    5.1 数据获取 
    5.2 数据清洗 
    5.3 分析工具选取 
    5.4 数据分析模型选择 
    5.5 数据处理 
    5.6 处理结果展示 
    5.7 结果数据分析


    DrugAI
    展开全文
  • 数据挖掘十大算法之Apriori详解

    万次阅读 多人点赞 2016-12-06 11:59:59
    在2006年12月召开的 IEEE 数据挖掘国际会议上,与会的各位专家选出了当时的十大数据挖掘算法( top 10 data mining algorithms ),在本系列已经发布的文章中我们已经讨论了其中的七个。本文主要介绍Apriori算法,它...

    在2006年12月召开的 IEEE 数据挖掘国际会议上(ICDM, International Conference on Data Mining),与会的各位专家选出了当时的十大数据挖掘算法( top 10 data mining algorithms ),可以参见文献【1】。本博客已经介绍过的位列十大算法之中的算法包括:

    • [1] k-means算法(http://blog.csdn.net/baimafujinji/article/details/50570824)
    • [2] 支持向量机SVM(http://blog.csdn.net/baimafujinji/article/details/49885481)
    • [3] EM算法(http://blog.csdn.net/baimafujinji/article/details/50626088)
    • [4] 朴素贝叶斯算法(http://blog.csdn.net/baimafujinji/article/details/50441927)
    • [5] k k k
    展开全文
  • 数据挖掘/机器学习/算法岗2017校招面试总结

    万次阅读 多人点赞 2016-09-26 19:09:26
    这个岗位叫法很多,算法岗,数据挖掘岗,机器学习岗,基础研究等等,总结一下从16年9月校招的面试情况。百度:师姐给我内推的,一面聊了2个半小时,基本在写代码。用MapReduce写好友推荐,在一堆单词里面找出现次数...
  • 数据挖掘】之 数据挖掘 绪论

    万次阅读 2020-04-28 23:35:42
    1.什么是数据挖掘 数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现先前未知的有用模式。数据挖掘还可以预测未来观测结果。 并非所有的信息发现任务都被视为数据...
  • 数据挖掘-层次聚类

    万次阅读 2020-12-02 17:48:39
    微信搜索:“二十同学” 公众号,欢迎关注一条不一样的成长之路 层次聚类(hierarchical clustering)算法极为...如果用数据挖掘工具来做(如SPSS),一般会生成一个树形图,那么我们可以根据分析问题的具体情况,选.
  • 数据挖掘-朴素贝叶斯算法

    万次阅读 2020-12-02 17:52:20
    我个人认为,在数据挖掘领域,分类算法是最为重要。它根据以往的数据来对新的数据做预测。垃圾邮件判断,潜在用户挖掘等都会用到分类算法。今天把总结朴素贝叶斯算法(NaiveBayes)的学习心得。 Bayes是谁 Thomas...
  • 常用数据挖掘数据集

    2017-05-07 11:30:58
    常用数据挖掘数据集,包含阿里部分天池竞赛数据集
  • python数据挖掘入门

    2017-09-12 21:57:30
    python数据挖掘 python数据挖掘 python数据挖掘 python数据挖掘 python数据挖掘 python数据挖掘 python数据挖掘 python数据挖掘 python数据挖掘 python数据挖掘 python数据挖掘 python数据挖掘 python数据挖掘 ...
  • 数据挖掘流程

    千次阅读 2019-09-21 15:17:44
    1、数据挖掘流程使用思维导图总结出来?(数据挖掘流程) 数据挖掘流程
  • Python数据挖掘简易入门

    千人学习 2020-03-11 14:47:29
    本课程为Python数据挖掘方向的入门课程,课程主要以真实数据为基础,详细介绍数据挖掘入门的流程和使用Python实现pandas与numpy在数据挖掘方向的运用,并深入学习如何运用scikit-learn调用常用的数据挖掘算法解决...
  • 数据挖掘数据挖掘+程序

    热门讨论 2010-07-11 23:56:39
    数据挖掘(Data Mining)是一个多学科交叉研究领域,它融合了数据仓技术(Database)技术,人工智能(Artificial Intelligence)、机器学习(Machine Learning)、统计学(Statistics)、知识工程(Knowledge Engineering)...
  • 数据挖掘概念

    千次阅读 2019-06-24 16:04:27
    数据挖掘定义: •数据挖掘是从海量的数据中抽取感兴趣的(有价值的、隐含的、以前没有用但是潜在有用信息的)模式和知识的过程。 •数据挖掘是从存放在数据库、数据仓库中或其它信息库中的大量数据中挖掘有趣知识...
  • 数据挖掘进阶之序列模式挖掘GSP算法 绪 继续数据挖掘方面算法的讲解,前面讲解了数据挖掘中关联规则算法FP-Growth的实现。此篇博文主要讲解基于有趣性度量标准的GSP序列模式挖掘算法。有关论文后期进行补充。实现...
  • java数据挖掘资料

    热门讨论 2011-05-21 23:52:40
    数据挖掘资料 数据挖掘数据挖掘资料 数据挖掘资料 数据挖掘资料 数据挖掘资料资料数据挖掘资料 数据挖掘资料 数据挖掘资料 数据挖掘资料 数据挖掘资料 数据挖掘资料
  • 数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 数据挖掘对象 根据信息存储格式,用于挖掘的对象有关系数据库...
  • 数据挖掘:严格的科学定义上,数据挖掘是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。 从技术角度分析,数据挖掘就是利用一...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 380,876
精华内容 152,350
关键字:

数据挖掘