数据挖掘 订阅
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 [1] 展开全文
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 [1]
信息
外文名
Data mining
相关领域
人工智能、数据库
别    名
资料探勘、数据采矿
中文名
数据挖掘
应用领域
情报检索、数据分析、模式识别等
所属学科
计算机科学
数据挖掘简介
需要是发明之母。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。 [2]  数据挖掘是人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,作出正确的决策。知识发现过程由以下三个阶段组成:①数据准备;②数据挖掘;③结果表达和解释。数据挖掘可以与用户或知识库交互。 [1]  数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。 [1]  近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。数据挖掘利用了来自如下一些领域的思想:①来自统计学的抽样、估计和假设检验;②人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。 [1] 
收起全文
精华内容
下载资源
问答
  • 数据挖掘
    千次阅读
    2022-02-08 08:08:33

    下面是该类的一些题目:

    题目
    基于大数据分析的市场精准描述与预测
    基于可调Q因子小波变换和迁移学习的脑电数据分析方法研究
    基于深度学习的烟草近红外光谱数据分析
    基于自回归模型和机器学习的大气电场数据分析和应用研究
    基于可视化技术的音乐数据分析平台的研究
    面向数据分析的探索式服务组合推荐技术研究
    基于深度学习的神经精神性狼疮早期诊断模型和医疗数据分析研究
    某区域大电网高压继电保护文本缺陷数据分析及应用研究
    基于大数据分析的电站锅炉性能预测及优化
    多线圈电磁加热仿真与数据分析
    海上油气水井电潜泵的数据分析及故障诊断研究
    基于数据分析的入体液分泌蛋白预测研究
    基于大数据分析的智慧旅游研究
    基于机器学习的无痛分娩数据分析研究
    基于Spark的防火墙日志数据分析与挖掘平台
    弱视儿童fNIRS数据分析与识别算法研究
    基于大数据分析的智慧城市自动驾驶车流智能管理研究
    基于多目标进化学习的生物数据分析方法研究
    基于机器学习的板带轧机大数据分析
    风力发电场电机运行状态数据分析与预警
    磁共振影像组学与数据分析在前列腺癌检测、风险分层与神经侵袭中的应用研究
    基于深度学习的家蚕数据分析应用研究
    基于同态加密的多中心临床数据分析方法研究
    基于物联网的智慧教室数据分析控制系统研究与实践
    基于大数据分析与挖掘的铁路滑坡灾害监测预警模型研究
    拉曼光谱预处理及数据分析应用中的关键技术研究
    基于多元方法的大气甲烷浓度数据分析与预测
    基于数据挖掘的识别社交网站Sybil攻击的算法研究
    众包平台下基于差分隐私的激励机制和数据分析方法研究
    面向电力文本领域的数据挖掘探索研究
    基于轨迹数据挖掘的旅行时间预测方法研究
    基于支持向量机的土石坝安全监测数据分析及其应用研究
    基于深度学习方法的建筑用能数据分析研究
    基于兰州银行客户关系管理的大数据分析平台构建研究
    基于Python机器学习的大气环境下材料失效数据分析
    数据挖掘技术在智慧畜牧业中的应用研究
    基于机器学习的永久式井下压力计数据分析方法研究
    网络感知校园时空数据分析
    基于蓝墨云的数据分析在大学生个性化学习模式中的应用研究
    基于Spark的江西省新一代信息技术专利数据分析研究
    电信大客户网管告警数据分析平台的开发与应用
    基于电信网管告警数据分析的网络故障预测研究
    基于机器学习方法的生物医学数据挖掘相关问题研究
    面向智慧城市基于数据分析的自动驾驶汽车及车队智能管理研究
    基于行为数据分析的学习者学习习惯挖掘及学习路径规划
    基于数据挖掘技术的智慧人居模式与行为预测研究
    充电桩数据挖掘与充电量预测算法研究
    基于大数据挖掘的N银行客户流失分析与营销策略研究
    高速铁路宽带信道数据库构建与数据挖掘研究
    基于深度学习技术的异构临床数据分析系统的设计与实现
    基于云平台的区域用水量大数据分析预测方法研究
    基于本体数据挖掘方法的妊娠腹痛“病-症-证-治法-方药”的源流及关联研究
    分布式流数据分析与实时机器学习理论与应用研究
    高速铁路安全文本大数据分析方法研究
    甚高频引力辐射的理论模型及数据分析研究
    基于随机森林的工业螺丝数据分析研究
    基于数据挖掘的B2C电商需求预测与应用研究
    多源医疗数据分析模型研究及实现
    数据挖掘和机器学习在天文学中的应用
    基于数据挖掘的烘丝出口水分控制研究
    基于数据挖掘的滤棒生产工艺参数优化研究
    基于数据挖掘的电信客户流失预警研究
    某智能新风系统的物联网通信及数据分析平台的设计与实现
    基于遥感云平台的时间序列SAR数据分析与应用研究
    基于机器学习的铁路系统故障文本数据分析挖掘方法研究
    基于主动学习的肠道微生物组数据分析方法研究
    上市公司信用风险度量研究
    基于特征协同作用的生物数据分析方法研究
    机器学习在分子/原子光谱数据分析中的应用
    智能车站设备数据分析系统的设计与实现
    CNC铣刀磨损状态的大数据分析与预测
    基于学生行为分析的教育数据挖掘算法研究
    基于大数据平台的日志数据分析与研究
    面向物联网时序数据分析与应用的深度学习框架研究
    基于大功率毫米波测试系统的数据挖掘分析
    基于数据分析的癌症标志物识别及肿瘤进展阶段分类研究
    基于大数据分析的酒店在线销量关键影响因素研究
    面向多场景的大数据分析系统的研究与实现
    基于数据挖掘技术的结直肠癌检测方法的研究
    基于可解释机器学习模型的银行客户数据分析和预测
    基于机器学习的大豆抵抗大豆疫霉侵染数据分析
    基于数据挖掘的T2DM患者胰岛素用药预测模型建立
    基于数据挖掘的产品顽固性不良分析及应用
    数据挖掘技术在甲状腺疾病分类上的研究与应用
    基于机器学习理论的智能电网数据分析及算法研究
    基于机器学习与安全多方计算的棉花大数据分析与共享
    基于双支持向量机回归的生存数据分析的研究
    双变换算法在多维序列数据分析中的优化研究
    数据挖掘技术在新疆艾滋病预测与控制模型中的应用研究
    采用芝麻信用分的消费金融风险评估方法比较研究
    电力设备非结构化数据挖掘的应用研究
    新型电容传感器的制备和数据分析
    双相障碍与氧化应激损伤
    大数据时代下数据挖掘中的算法歧视研究
    基于电子病历数据挖掘的急性冠脉综合征风险评估方法研究
    基于工程数据分析的TBM围岩类型识别与操作参数决策研究
    基于数据挖掘的孕期高血压研究
    基于极限学习机和迭代自组织数据分析聚类的室内定位算法研究
    数据挖掘技术在征信数据中的应用研究
    面向乳腺癌数据的基因存储方法与拓扑数据分析
    面向数据分析的分布式数据管理系统
    基于金融数据分析的商业银行资金面预测
    基于中国在线食谱的探索式数据分析
    面向机器学习的海洋环境数据分析与预测研究
    基于应用日志大数据分析在主动防御审计中的应用
    基于数据挖掘的材料性能优化及分子筛选
    基于复杂网络理论的天津市公交网络数据分析及优化
    数据挖掘技术在音乐流行趋势预测中的应用研究
    手机App用户心理需求结构及其跨场景需求稳定性探究
    基于数据挖掘的电力调度管理系统设计与实现
    基于大数据分析的煤层气井排采参数关系研究
    基于生物信息数据挖掘技术构建食管鳞状细胞癌诊断预测模型
    基于多渠道数据分析的医疗服务需求预测研究
    基于SDAE的列车车轴声发射信号实验数据分析
    基于时频图像和CNN的疲劳裂纹声发射信号实验数据分析
    基于数据挖掘算法的微信公众号阅读量分析
    城市计算视角下的公共自行车服务供给-网络流量-借还需求时空数据挖掘与建模
    汽车螺栓打紧质量大数据分析
    基于Spark的大数据分析系统设计与实现
    基于脑电数据分析的驾驶行为研究
    基于遥感物候与数据挖掘算法的水稻重金属胁迫识别研究
    基于序列深度学习的生物医学大数据分析研究
    重介分选智能控制系统设计及过程数据分析研究与应用
    基于机器学习的互联网大数据分析平台的管理系统研究
    基于移动处理器的性能数据挖掘与算法优化关键技术研究
    基于数据挖掘的电力客户投诉分析与预测研究
    数据挖掘算法在心脏病医疗诊断系统中的应用研究
    基于文本分析和数据挖掘的股市分析系统
    基于数据挖掘技术的用户异常用电检测系统的研究与实现
    蛋白质组一站式数据分析及可视化平台的研发及应用
    基于数据分析的宝武集团产品仓储管理系统研究与开发
    面向流式数据的工业质量数据分析平台
    基于机器学习的锻造过程数据分析方法的研究
    基于Spark的易制毒化学品数据分析系统的设计与实现
    基于机器学习的建筑空调能耗数据挖掘和模式识别
    基于数据挖掘的网络新闻热点发现系统设计与实现
    基于数据挖掘技术的交通流量分析与预测
    针对若干数据挖掘问题的量子算法研究
    基于深度学习的股票数据分析技术的研究与应用
    基于Spark的迁移学习方法在电网数据分析中的应用研究与实现
    基于数据挖掘的交通信息预测机制研究
    基于机器学习的智能交通系统时空数据分析与预测技术研究
    基于数据分析与集成学习的4D航迹预测
    数据挖掘支撑下的城市功能区识别研究
    机器学习在心电数据分析中的研究和应用
    基于数据挖掘的公司财务造假识别模型研究
    对P2P网贷平台信用风险的研究
    基于数据挖掘的告警关联关键技术研究
    基于医疗数据分析的疾病预测与处方推荐算法研究
    基于高通量测序数据的跨界sRNA数据分析方法研究
    云环境基于属性约简与贝叶斯的气象数据分析
    基于数据挖掘的典型车辆排放因子预测研究
    基于第二十一届成都国际汽车展览会的数据挖掘
    基于工业物联网的生产状态监测及数据分析系统
    偏最小二乘优化及其在中医药数据分析中的应用研究
    基于Python的农副产品销售数据分析应用
    基于新浪新闻数据分析的新闻热度预测方法研究
    基于深度学习的金融数据分析系统设计与实现
    基于spark的电商用户行为大数据分析的研究
    基于数据挖掘的实体零售业销售额预测研究
    基于Elasticsearch的房地产大数据分析系统
    数据挖掘在智能手机销售数据中的应用
    基于大数据分析的致密气藏气井产量预测方法研究
    基于深度聚类的单分子电输运数据分析方法
    移动CDR数据分析平台的实现与应用研究
    埋地保温管道分布式光纤监测大数据分析研究
    基于数据挖掘的基因和疾病的关系研究
    基于Docker的教育数据挖掘平台的设计与实现
    基于弹性搜索的网络流数据分析系统设计与实现
    基于红外光谱检测技术的污水COD数据分析
    数据分析技术在图像分类中的应用
    基于数据挖掘的急性心肌梗死患者住院费用分析
    基于机器学习与数据挖掘的名老中医用药规律研究
    基于深度增强学习的自主数据分析研究
    基于Spark的并行数据挖掘研究及应用
    基于多源数据挖掘技术的道路交通安全风险评估与对策研究
    通用件定制生产中的质量数据分析方法研究与应用
    基于数据挖掘的网络加密流量分类研究
    基于数据挖掘的疾病预测组合模型研究
    基于大数据分析的手足口病地区发病疫情预测模型研究与实现
    基于Spark MLlib的股票数据分析研究
    比特币中针对用户和矿工的区块数据分析
    基于数据挖掘方法的工艺知识发现及粗糙度预测研究
    基于大数据分析的智慧灌溉系统研究与实现
    数据挖掘的信息论方法研究
    基于Spark的数据挖掘技术在ERP系统上的研究与应用
    基于社交媒体的地震灾情数据挖掘与烈度快速评估应用
    家庭宽带精准营销中的数据挖掘分析与应用
    基于情感分析技术的电商产品在线评论数据挖掘研究
    基于神经网络的高超声速飞行器气动热数据分析与数据库研究
    基于高阶多元马尔可夫模型的交通大数据分析研究
    基于机器学习的肿瘤基因表达谱数据分析方法研究
    基于指令域数据分析的机床智能化关键技术研究
    数据挖掘过程中的可解释性问题研究
    面向大数据分析的任务调度机制研究
    基于Hadoop的省级农信社数据分析系统的设计实现
    用于系统建模和数据挖掘的粒度数据描述
    可拓室内设计数据挖掘研究
    基于大数据挖掘的电信客户流失预测系统的实现
    网络钓鱼诈骗预警情报模型的构建
    基于数据挖掘的电商销量预测研究
    混合式教学在《基于python的网络数据分析》中的应用
    基于深度学习的桥梁健康监测数据分析关键技术研究
    在线教育客服数据挖掘与对话机器人设计
    乳腺癌数据分析与计算建模
    基于数据挖掘的针织产品质量控制研究
    基于Spark的融合通信大数据分析关键技术的设计与实现
    人体动作数据分析算法
    基于数据挖掘分类算法的钓鱼网站检测研究
    基于手机信令的数据分析引擎设计与实现
    面向储层预测的井震大数据分析技术研究
    数据挖掘技术在客户关系管理中的应用研究
    基于重症监护数据库MIMIC-Ⅲ的探索性数据分析及急性心肌梗死死亡预测分析
    面向网络自媒体的空间数据挖掘研究
    基于SPARK的空间数据挖掘聚类算法并行化研究
    基于数据挖掘的高潜用户购买意向预测
    环境下基于数据挖掘的径流演化分析
    基于工业大数据分析的卷烟材辅料上机适应性研究与实践
    基于数据挖掘技术的智慧民生网络体系构建研究
    基于数据挖掘技术的空调系统管控方法研究
    基于机器学习的降水数据分析算法的研究
    基于数据挖掘的阿尔兹海默症蛋白质网络研究
    数据挖掘中关于动作知识提取方法的研究
    数据挖掘技术用于高校学生留级预警的研究
    基于数据挖掘的潜在用户行为分析
    基于集成学习的中医病案数据挖掘方法研究
    基于大数据分析的螺栓拧紧工艺质量评价方法研究
    面向日志大数据分析的业务服务系统的设计与实现
    数据挖掘技术在医保欺诈检测识别中的应用研究
    基于深度学习的互联网健康数据分析技术研究
    基于机器学习方法预测拟南芥功能关联互作组和基于网络驱动的组学数据分析系统
    基于大数据挖掘的高血压药物治疗方案研究
    数据挖掘在档案管理中的应用研究
    国家食品抽检数据分析挖掘系统研建
    基于物联网与大数据分析的设备健康状况监测系统设计与实现
    基于大数据分析的智能电表故障预测技术研究
    基于数据挖掘技术的用户偏好研究
    P2P互联网金融数据分析平台的研究与实现
    基于距离度量学习的医疗数据挖掘研究与应用
    多源多模态数据分析平台设计与实现
    基于大数据分析的快递安全监测监控系统的研究
    时序医疗健康数据挖掘的研究
    基于分类算法的研究生数据分析系统的设计与实现
    基于机器学习的森林多源遥感数据分析方法研究
    基于数据挖掘的绿色设计中客户需求向工程特性转化研究
    数据挖掘在体检人群代谢综合征智能甄别中的应用研究
    基于机器学习和智能优化的肿瘤基因表达数据挖掘研究
    基于数据挖掘技术的车险理赔反欺诈研究
    基于大数据分析的恶意域名检测技术研究与实现
    基于数据分析的自适应学习系统研究
    基于数据挖掘技术的P2P借贷违约风险识别模型研究
    基于数据挖掘技术的恶意软件检测关键问题研究
    活体光声流式细胞仪光声信号数据分析方法
    面向数据分析的云工作流优化调度方法
    基于深度学习的Web数据挖掘
    基于汽车网络舆情的数据分析系统研究与应用
    基于集成学习和流数据挖掘的雷电预报研究
    基于人工智能的鼾声数据分析方法研究
    基于数据挖掘的T产品质量评价研究
    迭代自组织数据分析算法在短期电力负荷预测的研究
    基于远程心电判读的大数据分析与应用研究
    教育数据挖掘中分类问题的可解释性研究
    基于数据挖掘的IPTV故障诊断研究与实现
    基于大数据分析的漏洞利用检测方法研究
    基于深度学习的大规模图数据挖掘
    GIS空间数据分析中的分类变量相似度研究
    循环肿瘤DNA测序的数据分析方法
    基于本体数据库的多标签预测模型及生物医药数据挖掘研究
    基于大数据分析平台的网络数据处理研究
    基于TCGA和PubMed数据库的高维生物医学数据的数据挖掘和特征选择研究
    基于组合算法的打车软件订单数据分析
    基于Spark的智慧城市能耗数据分析的研究与实现
    遥感数据分析中的特征表示方法研究
    基于Hadoop的新浪微博营销数据分析系统设计与实现
    数据挖掘方法在反恐预警中的应用
    微博数据挖掘可视化系统的设计与实现
    数据挖掘在蛋白质翻译后修饰及疾病诊断和预后中的应用
    基于健康云平台的大数据分析服务方法
    基于轨迹数据挖掘的短时出租车区域分布预测研究
    基于大数据分析的套牌实时检测系统研究与实现
    机器学习算法在医疗数据分析中的应用
    数据分析云服务的负载及服务质量预测
    化学计量学在生物信息和代谢组学数据分析中的应用
    数据挖掘在天津联通内部审计中的应用研究
    面向MOOC的用户学习行为数据分析技术研究
    基于大数据分析的广告点击率预估方法研究
    海量稀疏时空数据分析方法及应用研究
    基于数据挖掘技术的交通拥堵判别与预测算法研究及应用
    智慧课堂中的数据分析与游戏化平台
    数据挖掘分类算法的研究和应用
    基于Lambda架构的城市一卡通数据分析系统的研究与实现
    四种数据挖掘算法的信用卡违约识别对比研究
    大数据分析引擎性能自动优化关键技术研究
    基于数据挖掘的图书馆长尾服务研究
    多标记学习算法研究及在生物医学数据挖掘中的应用
    基于Hadoop的电商数据分析系统的设计与实现
    数据挖掘在入侵检测系统中的应用研究
    数据挖掘在大学英语教学和测评中的研究与应用
    基于多视图的雾霾数据分析方法
    基于大数据分析的聊天机器人的研究与实现
    基于Gradient Boosting算法的海量健康数据挖掘研究与应用
    数据挖掘在成矿预测及概略经济评价中的应用
    基于数据挖掘技术的航摄影像土地利用变化检测研究
    面向大规模数据分析与分类的正则化回归算法
    基于电力大数据的并行数据挖掘系统的研究
    基于Spark MLlib统一数据挖掘服务平台的研究与实现
    支持电能量数据质量分析的数据挖掘方法研究
    基于Spark的医疗健康数据分析系统设计与实现
    基于大数据分析方法的学生在线学习评价研究
    基于电力大数据的数据挖掘支撑子系统的设计与实现
    电商用户数据分析研究
    乳腺影像肿瘤诊断中的数据分析
    地震记录矢量化与地震目录数据挖掘及系统开发
    电力中文文本数据挖掘技术及其在可靠性中的应用研究
    基于数据挖掘的互联网金融反欺诈系统研究
    男子1500米自由泳竞技能力时间序列特征数据挖掘研究
    生物医学文献库中的可变剪接体数据挖掘
    基于流数据挖掘的电力变压器故障预测的研究及应用
    数据分析方法及其在房间资源管理上的应用系统
    面向函数型数据分析的机器学习算法研究与应用
    基于互联网企业的大数据分析系统研究
    基于数据挖掘的电站锅炉低氮燃烧优化研究
    基于数据挖掘下的联网实时审计研究
    数据挖掘方法在评论分类中的应用研究
    基于数据挖掘的地理信息集成方法研究
    基于MapReduce的高校大数据分析挖掘
    支持向量机在人口数据分析中的应用
    信任函数建模的认知不确定性数据分析与学习
    人类蛋白质糖基化位点预测的数据挖掘技术研究
    数据挖掘技术在煤质近红外光谱分析中的应用研究
    基于PostgreSQL和Spark的可扩展大数据分析平台
    基于序列特征的宏基因组数据分析方法研究
    基于Hadoop的在线数据挖掘系统的设计与实现
    电网大数据分析工具的研究与实现
    机器学习在影视大数据分析中的研究及应用
    基于大数据分析的电力短期负荷预测研究与开发
    基于企业营业日志的大数据分析与辅助决策研究
    基于平滑LDA的RNA-Seq数据分析研究
    面向电信网络优化的大数据分析系统实现与应用
    半监督SVM在阿尔茨海默症数据分析中的应用
    社交网络大数据分析平台及用户转发行为分析
    面向大数据分析的多任务加速在线学习算法研究
    多任务学习及其在光谱数据分析中的应用
    基于流形学习的金融数据分析方法研究
    面向老药新用的数据挖掘研究
    基于数据挖掘技术的学生成绩分析系统的设计与实现
    股票预测中的文本大数据挖掘研究
    正则化方法在数据挖掘中的应用与研究
    单核苷酸多态性数据挖掘方法及其应用研究
    蛋白质SUMO化修饰位点预测的数据挖掘技术研究
    基于多目标决策的数据挖掘方法评估与应用
    基于Spark的大数据挖掘技术的研究与实现
    基于Hadoop的分布式数据挖掘关键技术研究
    支持向量机在DNA数据分析中的应用研究
    基于数据挖掘的煤矿微震危害预测实证分析
    基于数据挖掘的TDOA定位技术
    数据挖掘技术在上证指数预测中的应用研究
    SVM在数据挖掘中的应用
    城市交通流多维时序混合数据挖掘预测模型及其应用研究
    机器学习算法在数据挖掘中的应用
    基于大数据技术的大跨度桥梁抖振响应原型监测数据分析
    数据挖掘中类不平衡数据集分类模型研究
    数据挖掘中的统计方法及其应用研究
    生物疾病数据挖掘与系统建模
    ABC_2半导体化合物性能预测和数据挖掘平台开发
    基于数据挖掘的企业竞争情报智能分析研究
    机器学习算法在不同领域数据分析中的应用
    基于云计算的海量网络流量数据分析处理及关键算法研究
    基于大规模数据挖掘的VOD系统用户忠诚度演进分析
    数据挖掘算法优化研究与应用
    数据挖掘在医学领域中的应用
    基于数据挖掘和机器学习的木马检测系统设计与实现
    基于粗糙集理论的混合数据挖掘方法研究
    基于支持向量机的智能数据挖掘算法研究
    基于共享子空间学习的多视角数据分析
    电力云数据分析平台数据挖掘算法的研究与应用
    基于用户特征的社交网络数据挖掘研究
    基于数据挖掘与机器学习的恶意代码检测技术研究
    情感驱动的音乐数据挖掘及检索
    基于数据挖掘的监控视频异常目标的识别
    支持向量机语音识别系统的数据分析预选取算法研究
    基于数据挖掘技术的蛋白质功能预测研究
    基于主动学习的非实验蛋白数据挖掘方法研究
    基于GIS的农业气象信息数据挖掘系统的研究与实现
    基于支持向量机的环境数据分析与处理
    针对UGC数据进行的数据挖掘的研究与实现
    PSO-SVM学习算法及其在空间数据分析中的应用
    基于数据挖掘技术的上市公司财务舞弊识别研究
    可视化数据挖掘技术在城市地下空间GIS中的应用研究
    基于间隔理论的序列数据挖掘研究
    基于贝叶斯的质谱数据分析方法
    基于SVM-RFE算法的癌症基因表达数据分析
    基于MapReduce的数据挖掘算法研究与应用
    基于数据挖掘的火电厂设备状态检修研究
    面向移动环境的高效情景数据挖掘及节能感知方法研究
    基于数据挖掘技术的复合图书馆流程优化研究
    数据挖掘新方法及其在复杂工业过程中的应用研究
    支持向量机算法研究及在气象数据挖掘中的应用
    基于决策森林法的肿瘤基因表达谱数据分析
    机器学习及数据挖掘在生物信息学中的应用研究
    数据挖掘技术在海上交通特征分析中的应用研究
    基于隐私保护的数据挖掘若干关键技术研究
    基于特征进程和数据挖掘的P2P流量识别技术
    代谢组学数据挖掘关键问题研究
    数据分析在数据业务监控中的应用
    基于数据挖掘技术的煤与瓦斯突出预测研究
    智能远程健康监护系统生理参数数据分析及预报的研究
    基于商空间的煤矿瓦斯数据挖掘研究
    数据挖掘中的谱聚类算法研究
    流数据挖掘关键技术研究
    数据挖掘在股票投资中的应用
    基于数据挖掘的客户流失预测实证研究
    基于SVM的数据挖掘技术研究
    基于数据挖掘和机器学习的恶意代码检测技术研究
    中医医案数据挖掘技术研究
    数据挖掘模型的创建及其在中医药文献中的应用研究
    SVM-RFE算法在数据分析中的应用
    数据挖掘方法在高导电高弹性铜合金及其它金属材料中的应用
    支持向量机在医学数据分析中的应用
    基于SVM的机动车流量数据分析与预测模型
    基于信息论的数据挖掘算法
    基于支持向量机的数据挖掘应用研究
    基于关联规则的数据挖掘算法研究
    用于基因芯片和质谱数据分析的混合模型研究
    维数约减算法研究及其在大规模文本数据挖掘中的应用
    数据挖掘技术在文本分类和生物信息学中的应用
    基于数据挖掘技术的高压输电线路故障选相方法
    基于机器学习的DNA微阵列数据分析
    基于SVM的数据挖掘分类技术研究
    基于序列构造神经网络的多维数据分析研究
    药物专利的数据挖掘技术研究
    全局和局部相结合的数据挖掘方法及应用研究
    蛋白残基可溶性预测及基因表达数据分析方法研究
    面向生物数据分析的支持向量机技术的研究
    基于商空间的气象数据挖掘研究
    面向数据挖掘的支持向量机技术研究
    用于数据挖掘的支持向量机算法研究
    数学规划在数据挖掘和机器学习中的应用
    数据挖掘的建模及在生物信息学中的应用研究
    面向不确定性推理和数据分析的模式识别方法研究
    基于最大频繁项目集的数据挖掘关联规则算法研究
    数据挖掘技术在方剂配伍领域的应用研究
    基于粗糙集数据挖掘技术的客户价值分析
    基于数据挖掘技术的轴承寿命预测的研究
    基于支持向量机的代价敏感数据挖掘研究与应用
    基于支持向量机的公路车流量数据分析与预测模型
    基于数据挖掘的决策树算法研究及应用探讨
    基于数据挖掘的设备故障诊断
    数据挖掘中若干数学模型与算法研究
    基于支持向量机的过程工业数据挖掘技术研究
    粗糙集理论在银行数据分析中的利用
    数据挖掘聚类算法研究
    基于支持向量机的数据挖掘技术研究
    基于贝叶斯理论的海量科学数据挖掘
    基于机器学习和数据挖掘的入侵检测技术研究
    数据挖掘在企业营销中的应用研究
    数据挖掘技术与分类算法研究
    基于支持向量机的数据挖掘
    数据挖掘在网络故障诊断中的应用
    基于Web的空间数据挖掘研究
    支持向量机算法研究及在基因表达数据分析中的应用
    数据挖掘相关算法的研究与平台实现
    基于数据挖掘技术的目标识别分类研究
    基于离散制造业BOM的数据挖掘研究
    基于神经网络的分类数据挖掘属性选择和规则抽取研究
    Rough Set理论及其在数据挖掘中的应用研究
    粗糙集理论在数据挖掘领域中的应用
    基于商空间的构造性数据挖掘方法及应用
    关联规则数据挖掘算法的研究
    数据挖掘技术与关联规则挖掘算法研究
    空间数据挖掘的研究
    数据挖掘分类算法的研究与应用
    数据挖掘技术及其在中药配伍系统中的应用研究
    数据挖掘决策树方法的研究与应用
    基于粗糙集的数据挖掘与决策支持方法研究
    基于数据挖掘的虚拟人多模式行为合成研究
    支持向量机在数据挖掘中的应用
    一种基于遗传算法的数据挖掘技术的研究与应用
    数据挖掘及其在汉语文语转换中应用的研究
    更多相关内容
  • 完整版数据挖掘导论 课后习题答案(中文版)。 数据挖掘导论(完整版)课后习题答案(中文版)
  • 数据挖掘概念与技术,学数据挖掘必备的书籍,有英文和中文的PDF,内容很清晰,值得一看
  • 数据挖掘

    千次阅读 2020-03-30 12:40:31
    数据挖掘 (计算机科学) 锁定 同义词data mining一般指数据挖掘(计算机科学) 本词条由“科普中国”科学百科词条编写与应用工作项目审核 。 数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。...

    数据挖掘

     

    (计算机科学)

    同义词 data mining一般指数据挖掘(计算机科学)

    本词条由“科普中国”科学百科词条编写与应用工作项目 审核 。

    数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

    数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 [1] 

    中文名

    数据挖掘

    外文名

    Data mining

    别    名

    资料探勘、数据采矿

    所属学科

    计算机科学

    应用领域

    情报检索、数据分析、模式识别等

    相关领域

    人工智能、数据库

    目录

    1. 简介
    2. 产生背景
    3. 数据挖掘对象
    4. 数据挖掘步骤
    5. 数据挖掘分析方法
    1. 成功案例
    2. 经典算法
    3. ▪ 神经网络法
    4. ▪ 决策树法
    5. ▪ 遗传算法
    6. ▪ 粗糙集法
    1. ▪ 模糊集法
    2. ▪ 关联规则法
    3. 存在问题

    简介

    需要是发明之母。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。 [2] 

    数据挖掘是人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别统计学数据库可视化技术等,高度自动化地分析企业的数据,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,作出正确的决策。知识发现过程由以下三个阶段组成:①数据准备;②数据挖掘;③结果表达和解释。数据挖掘可以与用户或知识库交互。 [1] 

    数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。 [1] 

    近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。数据挖掘利用了来自如下一些领域的思想:①来自统计学的抽样、估计和假设检验;②人工智能、模式识别和机器学习的搜索算法建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。 [1] 

    产生背景

    20世纪90年代,随着数据库系统的广泛应用和网络技术的高速发展,数据库技术也进入一个全新的阶段,即从过去仅管理一些简单数据发展到管理由各种计算机所产生的图形、图像、音频、视频、电子档案、Web页面等多种类型的复杂数据,并且数据量也越来越大。数据库在给我们提供丰富信息的同时,也体现出明显的海量信息特征。信息爆炸时代,海量信息给人们带来许多负面影响,最主要的就是有效信息难以提炼,过多无用的信息必然会产生信息距离(信息状态转移距离)是对一个事物信息状态转移所遇到障碍的测度,简称DIST或DIT)和有用知识的丢失。这也就是约翰·内斯伯特( John Nalsbert)称为的“信息丰富而知识贫乏”窘境。因此,人们迫切希望能对海量数据进行深入分析,发现并提取隐藏在其中的信息,以更好地利用这些数据。但仅以数据库系统的录入、查询、统计等功能,无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,更缺乏挖掘数据背后隐藏知识的手段。正是在这样的条件下,数据挖掘技术应运而生。 [3] 

    数据挖掘对象

    数据的类型可以是结构化的、半结构化的,甚至是异构型的。发现知识的方法可以是数学的、非数学的,也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。 [4] 

    数据挖掘的对象可以是任何类型的数据源。可以是关系数据库,此类包含结构化数据的数据源;也可以是数据仓库、文本、多媒体数据、空间数据、时序数据、Web数据,此类包含半结构化数据甚至异构性数据的数据源。 [4] 

    发现知识的方法可以是数字的、非数字的,也可以是归纳的。最终被发现的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。 [4] 

    数据挖掘步骤

    在实施数据挖掘之前,先制定采取什么样的步骤,每一步都做什么,达到什么样的目标是必要的,有了好的计划才能保证数据挖掘有条不紊地实施并取得成功。很多软件供应商和数据挖掘顾问公司投提供了一些数据挖掘过程模型,来指导他们的用户一步步地进行数据挖掘工作。比如,SPSS公司的5A和SAS公司的SEMMA。 [3] 

    数据挖掘过程模型步骤主要包括定义问题、建立数据挖掘库、分析数据、准备数据、建立模型、评价模型和实施。下面让我们来具体看一下每个步骤的具体内容: [3] 

    (1)定义问题。在开始知识发现之前最先的也是最重要的要求就是了解数据和业务问题。必须要对目标有一个清晰明确的定义,即决定到底想干什么。比如,想提高电子信箱的利用率时,想做的可能是“提高用户使用率”,也可能是“提高一次用户使用的价值”,要解决这两个问题而建立的模型几乎是完全不同的,必须做出决定。

    图1  数据挖掘的系统模型

    图1 数据挖掘的系统模型 [3]

    (2)建立数据挖掘库。建立数据挖掘库包括以下几个步骤:数据收集,数据描述,选择,数据质量评估和数据清理,合并与整合,构建元数据,加载数据挖掘库,维护数据挖掘库。 [3] 

    (3)分析数据。分析的目的是找到对预测输出影响最大的数据字段,和决定是否需要定义导出字段。如果数据集包含成百上千的字段,那么浏览分析这些数据将是一件非常耗时和累人的事情,这时需要选择一个具有好的界面和功能强大的工具软件来协助你完成这些事情。 [3] 

    (4)准备数据。这是建立模型之前的最后一步数据准备工作。可以把此步骤分为四个部分:选择变量,选择记录,创建新变量,转换变量。 [3] 

    (5)建立模型。建立模型是一个反复的过程。需要仔细考察不同的模型以判断哪个模型对面对的商业问题最有用。先用一部分数据建立模型,然后再用剩下的数据来测试和验证这个得到的模型。有时还有第三个数据集,称为验证集,因为测试集可能受模型的特性的影响,这时需要一个独立的数据集来验证模型的准确性。训练和测试数据挖掘模型需要把数据至少分成两个部分,一个用于模型训练,另一个用于模型测试。 [3] 

    (6)评价模型。模型建立好之后,必须评价得到的结果、解释模型的价值。从测试集中得到的准确率只对用于建立模型的数据有意义。在实际应用中,需要进一步了解错误的类型和由此带来的相关费用的多少。经验证明,有效的模型并不一定是正确的模型。造成这一点的直接原因就是模型建立中隐含的各种假定,因此,直接在现实世界中测试模型很重要。先在小范围内应用,取得测试数据,觉得满意之后再向大范围推广。 [3] 

    (7)实施。模型建立并经验证之后,可以有两种主要的使用方法。第一种是提供给分析人员做参考;另一种是把此模型应用到不同的数据集上。 [3] 

    数据挖掘分析方法

    数据挖掘分为有指导的数据挖掘和无指导的数据挖掘。有指导的数据挖掘是利用可用的数据建立一个模型,

    这个模型是对一个特定属性的描述。无指导的数据挖掘是在所有的属性中寻找某种关系。具体而言,分类、估值和预测属于有指导的数据挖掘;关联规则和聚类属于无指导的数据挖掘。 [5] 

    1.分类。它首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘技术,建立一个分类模型,再将该模型用于对没有分类的数据进行分类。 [5] 

    2.估值。估值与分类类似,但估值最终的输出结果是连续型的数值,估值的量并非预先确定。估值可以作为分类的准备工作。 [5] 

    3.预测。它是通过分类或估值来进行,通过分类或估值的训练得出一个模型,如果对于检验样本组而言该模型具有较高的准确率,可将该模型用于对新样本的未知变量进行预测。 [5] 

    4.相关性分组或关联规则。其目的是发现哪些事情总是一起发生。 [5] 

    5.聚类。它是自动寻找并建立分组规则的方法,它通过判断样本之间的相似性,把相似样本划分在一个簇中。 [5] 

    成功案例

    1、数据挖掘帮助Credilogros Cía Financiera S.A.改善客户信用评分

    Credilogros Cía Financiera S.A. 是阿根廷第五大信贷公司,资产估计价值为9570万美元,对于Credilogros而言,重要的是识别与潜在预先付款客户相关的潜在风险,以便将承担的风险最小化。 [6] 

    该公司的第一个目标是创建一个与公司核心系统和两家信用报告公司系统交互的决策引擎来处理信贷申请。同时,Credilogros还在寻找针对它所服务的低收入客户群体的自定义风险评分工具。除这些之外,其他需求还包括解决方案能在其35个分支办公地点和200多个相关的销售点中的任何一个实时操作,包括零售家电连锁店和手机销售公司。 [6] 

    最终Credilogros 选择了SPSS Inc.的数据挖掘软件PASWModeler,因为它能够灵活并轻松地整合到 Credilogros 的核心信息系统中。通过实现PASW Modeler,Credilogros将用于处理信用数据和提供最终信用评分的时间缩短到了8秒以内。这使该组织能够迅速批准或拒绝信贷请求。该决策引擎还使 Credilogros 能够最小化每个客户必须提供的身份证明文档,在一些特殊情况下,只需提供一份身份证明即可批准信贷。此外,该系统还提供监控功能。Credilogros目前平均每月使用PASW Modeler处理35000份申请。仅在实现 3 个月后就帮助Credilogros 将贷款支付失职减少了 20%。 [6] 

    2、数据挖掘帮助DHL实时跟踪货箱温度

    DHL是国际快递和物流行业的全球市场领先者,它提供快递、水陆空三路运输、合同物流解决方案,以及国际邮件服务。DHL的国际网络将超过220个国家及地区联系起来,员工总数超过28.5万人。在美国 FDA 要求确保运送过程中药品装运的温度达标这一压力之下,DHL的医药客户强烈要求提供更可靠且更实惠的选择。这就要求DHL在递送的各个阶段都要实时跟踪集装箱的温度。 [6] 

    虽然由记录器方法生成的信息准确无误,但是无法实时传递数据,客户和DHL都无法在发生温度偏差时采取任何预防和纠正措施。因此,DHL的母公司德国邮政世界网(DPWN)通过技术与创新管理(TIM)集团明确拟定了一个计划,准备使用RFID技术在不同时间点全程跟踪装运的温度。通过IBM全球企业咨询服务部绘制决定服务的关键功能参数的流程框架。DHL获得了两方面的收益:对于最终客户来说,能够使医药客户对运送过程中出现的装运问题提前做出响应,并以引人注目的低成本全面切实地增强了运送可靠性。对于DHL来说,提高了客户满意度和忠实度;为保持竞争差异奠定坚实的基础;并成为重要的新的收入增长来源。 [6] 

    3、电信行业应用

    价格竞争空前激烈,语音业务增长趋缓,快速增长的中国移动通信市场正面临着前所未有的生存压力。中国电信业改革的加速推进形成了新的竞争态势,移动运营市场的竞争广度和强度将进一步加大,这特别表现在集团客户领域。移动信息化和集团客户已然成为未来各运营商应对竞争、获取持续增长的新引擎。 [6] 

    随着国内三足鼎立全业务竞争态势和3G牌照发放,各运营商为集团客户提供融合的信息化解决方案将是大势所趋,而移动信息化将成为全面进入信息化服务领域的先导力量。传统移动运营商因此面临着从传统个人业务转向同时拓展集团客户信息化业务领域的挑战。如何应对来自内外部的挑战,迅速以移动信息化业务作为融合业务的竞争利器之一拓展集团客户市场,在新兴市场中立于不败之地,是传统移动运营商需要解决的紧迫问题。 [6] 

    经典算法

    目前,数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。 [4] 

    神经网络法

    神经网络法是模拟生物神经系统的结构和功能,是一种通过训练来学习的非线性预测模型,它将每一个连接

    看作一个处理单元,试图模拟人脑神经元的功能,可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络的学习方法主要表现在权值的修改上。其优点是具有抗干扰、非线性学习、联想记忆功能,对复杂情况能得到精确的预测结果;缺点首先是不适合处理高维变量,不能观察中间的学习过程,具有“黑箱”性,输出结果也难以解释;其次是需较长的学习时间。神经网络法主要应用于数据挖掘的聚类技术中。 [4] 

    决策树法

    决策树是根据对目标变量产生效用的不同而建构分类的规则,通过一系列的规则对数据进行分类的过程,其表现形式是类似于树形结构流程图。最典型的算法是J.R.Quinlan于1986年提出的ID3算法,之后在ID3算法的基础上又提出了极其流行的C4.5算法。采用决策树法的优点是决策制定的过程是可见的,不需要长时间构造过程、描述简单,易于理解,分类速度快;缺点是很难基于多个变量组合发现规则。决策树法擅长处理非数值型数据,而且特别适合大规模的数据处理。决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。比如,在贷款申请中,要对申请的风险大小做出判断。 [4] 

    遗传算法

    遗传算法模拟了自然选择和遗传中发生的繁殖、交配和基因突变现象,是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。它的基本观点是“适者生存”原理,具有隐含并行性、易于和其他模型结合等性质。主要的优点是可以处理许多数据类型,同时可以并行处理各种数据;缺点是需要的参数太多,编码困难,一般计算量比较大。遗传算法常用于优化神经元网络,能够解决其他技术难以解决的问题。 [4] 

    粗糙集法

    粗糙集法也称粗糙集理论,是由波兰数学家Z Pawlak在20世纪80年代初提出的,是一种新的处理含糊、不精确、不完备问题的数学工具,可以处理数据约简、数据相关性发现、数据意义的评估等问题。其优点是算法简单,在其处理过程中可以不需要关于数据的先验知识,可以自动找出问题的内在规律;缺点是难以直接处理连续的属性,须先进行属性的离散化。因此,连续属性的离散化问题是制约粗糙集理论实用化的难点。粗糙集理论主要应用于近似推理、数字逻辑分析和化简、建立预测模型等问题。 [4] 

    模糊集法

    模糊集法是利用模糊集合理论对问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊集合理论是用隶属度来描述模糊事物的属性。系统的复杂性越高,模糊性就越强。 [4] 

    关联规则法

    关联规则反映了事物之间的相互依赖性或关联性。其最著名的算法是R.Agrawal等人提出的Apriori算法。其算法的思想是:首先找出频繁性至少和预定意义的最小支持度一样的所有频集,然后由频集产生强关联规则。最小支持度和最小可信度是为了发现有意义的关联规则给定的2个阈值。在这个意义上,数据挖掘的目的就是从源数据库中挖掘出满足最小支持度和最小可信度的关联规则。 [4] 

    存在问题

    与数据挖掘有关的,还牵扯到隐私问题,例如:一个雇主可以通过访问医疗记录来筛选出那些有糖尿病或者严重心脏病的人,从而意图削减保险支出。然而,这种做法会导致伦理和法律问题。 [6] 

    对于政府和商业数据的挖掘,可能会涉及到的,是国家安全或者商业机密之类的问题。这对于保密也是个不小的挑战。 [6] 

    数据挖掘有很多合法的用途,例如可以在患者群的数据库中查出某药物和其副作用的关系。这种关系可能在1000人中也不会出现一例,但药物学相关的项目就可以运用此方法减少对药物有不良反应的病人数量,还有可能挽救生命;但这当中还是存在着数据库可能被滥用的问题。 [6] 

    数据挖掘实现了用其他方法不可能实现的方法来发现信息,但它必须受到规范,应当在适当的说明下使用。 [6] 

    如果数据是收集自特定的个人,那么就会出现一些涉及保密、法律和伦理的问题。 [6]

     

    参考资料

    • 1.  刘宇主编;倪问尹副主编;边耐政主审.中国网络文化发展二十年(1994-2014)网络技术编:湖南大学出版社,2014.11:第150页
    • 2.  熊拥军等编著. 数字图书馆个性化服务研究与实践 基于新型决策支持系统[M]. 北京:国防工业出版社, 2012.09.第40页
    • 3.  杨良斌编著.信息分析方法与实践:东北师范大学出版社,2017.01:第213页
    • 4.  刘军,阎芳,杨玺编著.物联网与物流管控一体化:中国财富出版社,2017.04:第431页
    • 5.  张曾莲著.基于非营利性、数据挖掘和科学管理的高校财务分析、评价与管理研究:首都经济贸易大学出版社,2014.05:第70页
    • 6.  吴笑凡,曹洪泽. 审计数据采集与分析[M]. 北京:清华大学出版社, 2017.01.第319页
    展开全文
  • 数据挖掘原理与算法(第3版)
  • 一文读懂数据挖掘建模预测

    万次阅读 多人点赞 2022-06-12 21:47:36
    数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。听起来比较抽象,我们举个例子。傍晚小街路面上沁出微雨后的...

    什么是数据挖掘

    数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

    听起来比较抽象,我们举个例子。

    傍晚小街路面上沁出微雨后的湿润,和煦的细风吹来,抬头看看天边的晚霞,嗯,明天又是一个好天气。走到水果摊旁,挑了个根蒂蜷缩、敲起来声音浊响的青绿西瓜,心里期待着享受这个好瓜。

    在这里插入图片描述

    由路面微湿、微风、晚霞得出明天是个好天气。根蒂蜷缩、敲声浊响、色泽青绿推断出这是个好瓜,显然,我们是根据以往的经验来对未来或未知的事物做出预测。

    人可以根据经验对未来进行预测,那么机器能帮我们做这些吗?

    能,这就是数据挖掘。

    在这里插入图片描述

    “经验”通常以“数据”的形式存在,数据挖掘的任务就是从历史数据(之前挑瓜的经历,注意是经历还不是经验)中挖掘出有用的“知识”,也就是所谓“模型”(现在就形成经验了),在面对新情况时(未抛开的瓜)模型就可以用来预测(是不是好瓜)。

    用高中生能理解的数学语言来讲,数据挖掘建模任务的本质就是,根据一些历史已有的、从输入空间 X(如 {[色泽青绿;根蒂蜷缩;敲声浊响],[色泽乌黑;根蒂蜷缩;敲声沉闷],[色泽浅白;根蒂硬挺;敲声清脆]} )到输出空间 Y(如 {好瓜,坏瓜,坏瓜})的对应,找出一个函数 f,来描述这个对应关系,这个函数就是我们要的模型。

    有了模型之后再做预测就简单了,也就是拿一套新 x,用这个函数算一个 y 出来就完了。

    在这里插入图片描述

    那么,模型又是怎么建立出来,也就是这个函数是怎么找出来的呢?

    想想如何让一个人拥有判断瓜好坏的能力呢?

    需要用一批瓜来练习,获取剖开前的特征(色泽、根蒂、敲声等),然后再剖开它看好坏。久而久之,这个人就能学会用剖开前瓜的特征来判断瓜的好坏了。朴素地想,用来练习的瓜越多,能够获得的经验也就越丰富,以后的判断也就会越准确。

    用机器做数据挖掘是一样的道理,我们需要使用历史数据(用来练习的瓜)来建立模型,而建模过程也被称为训练或学习,这些历史数据称为训练数据集。训练好了模型后,好像发现了数据的某种规律,就可以拿来做预测了。

    也就是说,数据挖掘是用来做预测的,而要做到这种预测,需要有足够多已经有结果的历史数据为基础。

    在这里插入图片描述

    数据挖掘能干什么

    那么,这种预测技术如何应用在我们的生产销售过程中呢?

    以贷款业务为例,金融机构要做风险控制,防止坏帐,就要在放贷前知道这个贷款人将来不能按时还款的风险,从而决定是否放贷以及贷款利率。

    要做到这件事,我们要有一定数量的历史数据,也就是以前贷款人及贷款业务的各种信息,比如贷款人的收入水平、受教育程度、居住地区、信用历史、负债率等等可能会影响违约率的因素,还有贷款本身的金额、期限、利率等等。

    然后就可以使用数据挖掘技术建立模型来寻找用户及贷款的各种信息 X 和是否会发生违约 Y 之间的关系。

    建好的模型可以用来预测,及时发现高风险用户。

    在这里插入图片描述

    需要说明的,数据挖掘模型的预测并不能保证 100%准确(比如再有经验的瓜农也有选错瓜的时候),如果只有一例目标(比如只有一笔贷款)需要预测时,那就没有意义了。但通常,我们都会需要预测很多例目标,这样即使不是每一例都能预测正确,但能保证一定的准确率,这仍然是很有意义的。

    对于贷款业务,模型找出来的高风险客户未必都是真的,但准确率只要足够高,仍然能够有效的防范风险。

    在这里插入图片描述

    数据挖掘技术的应用非常广泛,比如工业领域中可以根据历史生产数据来预测良品情况,从而改进工艺参数降低不良率;畜牧业可以使用数据挖掘技术根据测量牲畜体温来预测牲畜是否生病,从而提前防治;医院也可以使用历史医疗记录基于数据挖掘技术找出关联规律,帮助医生更好地诊断疾病。

    总之,只要是有数据有场景几乎都会考虑用数据挖掘解决某些问题。

    在这里插入图片描述

    数据挖掘需要哪些流程

    通常一个完整的数据挖掘项目包含业务理解、数据理解、数据准备、数据预处理和建模、模型评估、模型部署应用。

    在这里插入图片描述

    业务理解的主要工作有需求调研,了解商务背景;明确业务目标和成功的标准。数据理解和业务理解一般是同时进行的,主要内容包括确定建模所需要的数据,描述数据,探索数据,检验数据质量,明确数据挖掘目标和成功标准。这两个阶段的主要任务就是明确挖掘目标和建模数据,目标和数据都明确以后就可以开始着手准备数据。

    数据准备的主要工作包括选择数据、清洗数据、构造数据、整合数据、格式化数据等等。如果企业的数据仓库建设比较完善,那么这个步骤的工作就非常简单,只需要做一些数据筛选,表间关联工作即可。反之,如果数据都是一些非常原始的数据比如日志数据、流水数据,数据准备这部分就比较耗费时间和精力了,需要做很多数据汇总,特征提取的工作。

    数据预处理和建模,这个环节是整个项目中技术难度最大的部分,通常必须由专业的挖掘工程师来完成。虽然,通俗地看,建模就是我们前面说过的在挑瓜过程中积累经验的事情,但实际上针对大量数据时仍然非常复杂。不同类型的数据和不同的预测目标会有不同的积累经验方案,也就是不同的算法。业界有数十种数据挖掘的算法,各有各的适应场景和数据要求以及参数,都需要根据实际情况来选择使用和准备数据并调整参数。这个阶段的主要工作有:样本选取,确定训练样本和测试样本、数据预处理、模型算法技术选型、筛选变量、模型训练、模型测试等。

    需要理解的是:(1)数据预处理是非常有必要的,好的预处理往往比单纯的调参更能提高模型性能;(2)预处理和建模过程并非一次性执行完毕就大功告成了,需要不断的迭代优化,才能获得比较理想的结果。

    模型评估,是对模型进行较为全面的评价的过程,计算模型的各种指标,比如 AUC,Gini,KS,Lift,模型稳定性等等,这样才能判断出建出来的模型是不是足够好。然后再进行模型的业务应用测试,判断是否能实现商业目标。模型合格后,就可以部署应用,即把数据挖掘的成果部署到商业环境,应用于生产活动。

    在这里插入图片描述

    普通人能用数据挖掘做预测吗?

    既然,数据挖掘是一项很实用的技能,那么普通人能学会吗?

    从数据挖掘的流程来看,最难掌握的就是数据预处理和建模部分,而其他部分看起来专业术语也不少,但只要稍加学习都能掌握,没什么技术难度。

    为什么说预处理和建模部分难学。因为这部分对数学能力的要求较高,一般只有统计学或数学相关专业的人士才具备相关的能力,普通人要想掌握,需要学习很多数学相关的课程,比如,概率论,数理统计,线性代数,随机过程……,这些知识是难以速成的。

    在这里插入图片描述

    虽然在 Python 里有很多现成的算法包,通过调包也能建出模型,但不懂得数学原理模型效果又如何保证呢?比如精确度不好,或者不稳定。如果没有充分的数学知识就不知道如何改进,只能无方向的随机尝试,如同大海捞针。

    例如,5% 的顾客没有指定年龄,是整体忽略该变量,还是忽略这部分有缺失的样本,又或者是将缺失值补充完整(使用平均值填充还是中位数填充又或者更复杂的方法的填充),或者是训练一个带这个特征的模型,再训练一个不带这个特征的模型。同样是缺失值处理,当缺失率为 90% 时,是否还采用相同的处理方法呢。

    再例如,高基数变量如何处理,数据噪音如何处理,不平衡样本,高偏数据,各种模型参数……

    在这里插入图片描述

    这些都需要建模师结合自己的知识和经验反复的去调试。要知道,有专业知识的选手其实也会用这些现成的函数包,但建一个好模型通常仍然要几天甚至数周时间,其中大部分时间都是在不断地调整优化。并不是把数据往算法里一丢就完事的。

    虽然有了封装好的算法,要学会数据挖掘,也还是要学数学,学算法。这事在培训班中速成是没有戏的。

    在这里插入图片描述

    那么,对于普通人来说还有没有什么办法不学这些晦涩难懂的知识也能做数据挖掘呢?

    答案是,有的。那就是利用工具,自动数据挖掘工具。自动数据挖掘工具将建模所需要知识和流程整合起来,这样就可以利用前人的知识自动建模和预测了。借助自动建模工具,我们只需要完成业务理解,数据准备过程,剩下的难度较大,并且需要反复迭代进行的建模过程尽可交给工具来完成。

    这样解决掉最难的部分,剩下的环节就容易多了,只要熟悉业务,了解一些基本概念,就能够用数据挖掘做预测了。

    在这里插入图片描述

    有哪些简单易用的数据挖掘工具?

    既然工具可以帮助我们解决技术难度最大的部分,那么有哪些好用的自动建模工具可以供大家使用呢?

    实际上市面上已经有不少很受欢迎数据挖掘工具,比如 weka,rapidminer,knime 等,不过大部分的工具还是比较沉重,安装使用都比较复杂。这里向大家推荐一款无基础人士也能用的简单工具:由国内著名数据软件公司润乾出品的易明建模

    易明建模采用的是全自动化的建模流程,只需一键式的操作就能够自动进行预处理和模型搭建。什么缺失值,异常值,高基数变量,时间特征……统统不用担心,还有算法选择,参数寻优等,易明建模都会自动帮你搞定。

    在这里插入图片描述

    在算法种类方面易明建模涵盖了常用的机器学习算法,比如线性回归,逻辑回归,树类算法,集成算法,pca 等,能够解决分类问题,回归问题和时间序列问题,大部分的商业场景问题都能用。

    在模型质量方面,易明建模拥有顶级科学家的经验和理论,并且经过了大量的实践验证。远超培训班选手,能够达到中上等数据挖掘师的水平。当然作为一个通用的数据挖掘软件,和苦读 N 年的专业选手精心调出来的模型可能还会稍差一些,但对于大多数的场合已经足够用了。

    易明建模还有一大亮点,就是耗费资源少,建模速度快。百万级的样本量,PC 机也能跑,万级的样本量,更是几分钟就搞定。当然巧妇难为无米之炊,如果数据量太少也是不行的。

    借助易明自动建模,普通人也能做数据挖掘,重要的是,这么好用的软件竟然还是免费的,免费的羊毛不薅白不薅。直接到润乾的官网上就可以下载。

    在这里插入图片描述

    虽然借助自动建模可以省去学习算法原理的过程,但是数据挖掘流程的其它部分也还是需要了解一些基本的知识,起码要学会评估模型,知道我们建出的模型到底好不好。

    比如模型质量,因为是用于预测,我们很容易简单地想像可以用准确率来评估,然而并不是。数据挖掘模型的质量通常会用一个叫做 AUC 的指标来评估,比单纯一个准确率复杂得多。不同的场景侧重的指标也不相同,比如还有查全率,提升度等。如果是回归问题则需要用 mse, rmse, ……来评估。如果这些都不懂,那样就算能建出模型也是一头雾水。

    在这里插入图片描述

    好在,这些东西虽然听起来有点复杂,但其实学起来并不难,只要有高中数学基础,花一两周时间就能理解学会了,这属于可速成的知识。和学数学,学算法相比,相当于打了一个粉碎性折扣。

    这里有一套课程可以看http://www.raqsoft.com.cn/wx/course-data-mining.html,从零开始,深入浅出讲解数据挖掘的基础概念和实用知识,特别偏重从应用的角度教大家如何做数据挖掘,课程中的一些案例也来源于真实业务场景,很适合没什么基础的人看。
    在这里插入图片描述

    易明智能建模资料

    展开全文
  • 很经典的数据挖掘python入门项目,配套代码齐全
  • 数据仓库及数据挖掘

    千次阅读 2022-03-25 00:05:51
    一、数据仓库概述 二、数据仓库的建设 三、数据仓库的分类 四、数据仓库的设计方法 五、数据挖掘 1、概述 2、常用技术与方法 3、应用

    建立数据仓库的意义在于使用这些数据,而最典型的应用是数据挖掘。

    一、数据仓库概述

    数据仓库是一个面向主题、集成、相对稳定、反映历史变化的数据集合。其中,
    1)数据源是数据仓库系统的基础,是整个系统的数据源泉
    2)OLAP(On-Line Analytical Processing,联机分析处理)服务器对数据进行有效集成,按多维模型予以组织;
    3)前端工具应用、挖掘数据
    在这里插入图片描述

    二、数据仓库的分类

    从结构的角度看,数据仓库可分为3种模型:

    1、企业仓库
    面向企业级应用,搜集企业各个主题的所有信息,提供全企业范围的数据集成。其数据通常来自多个操作型数据库(即OLTP,我们应用程序常用的数据库)和外部信息提供者,并且跨多个功能范围。

    企业仓库通常包含详细数据和汇总数据,数据量可达TB级。

    2、数据集市
    数据集市(Datamart),面向企业部门级应用,针对特定用户,是企业范围数据的一个子集,范围限定于选定的主题。为什么叫集市呢?可能是各取所需之意吧。根据数据来源的不同,分为

    1)从属数据集市(Dependent Datamart)
    数据来源于中央数据仓库。为一些部门单独复制、加工一份数据,建立数据集市,可以提高部门的访问速度,也能满足部门的特殊分析要求。从属数据集市的数据与中央数据仓库保持一致,已经经过了处理和检验。

    2)独立数据集市(Independent Datamart)
    数据直接来源于业务系统。

    独立数据集市优点是建立迅速,成本低廉,但由于各自独立,想整合成统一的中心数据仓库时可能会遇到困难,需要重新设计和部门协调等。

    3、虚拟仓库
    数据虚拟仓库(Virtual Warehouse)是视图的集合。只定义了来自各个操作型数据库上的查询,除了一些汇总视图可能被物化外,并没有存储数据。

    虚拟仓库容易建立,但消耗操作型数据库服务器资源,需要它们具有剩余的工作能力。
    在这里插入图片描述

    【补充知识】

    1、数据虚拟化
    数据虚拟化 是一种数据管理方法,它允许应用程序检索和操作数据而无需有关数据的技术细节,例如在源上如何格式化或在物理上位于何处,并可以提供 单一客户视图 (或任何其他实体的单一视图)。数据虚拟化不同于传统的提取,转换,加载 (“ ETL”)过程,数据仍然保留在原处,并实时访问源系统以获取数据。

    数据虚拟化有如下特点:

    1)可连接到任何数据来源
    数据虚拟化可连接到所有类型的数据来源,包括数据库、数据仓库、云应用程序、大数据存储库甚至 Excel 文件。

    2)可合并任何类型的数据
    数据虚拟化可将任意数据格式的相关信息合并到业务视图中,包括关系数据库、noSQL、Hadoop、Web 服务和云 API、文件等。

    3)可在任何模式下使用数据
    数据虚拟化使业务用户能够通过报表、仪表板、门户、移动应用程序和 Web 应用程序使用数据。

    2、联邦数据库
    联邦数据库系统 (FDBMS) 是一种元数据库管理系统,透明地映射多个自治数据库系统,变成一个联合数据库。组成的各数据库(称为单元数据库)可能分散于各个地域,通过计算机网络连接起来 。由于组成数据库系统保持自治,因此与合并多个不同数据库的任务相比,联邦数据库系统是一个可对比的替代方案。联邦数据库只是一个管理软件,本身并没有实际的数据集成。

    通过数据抽象,联邦数据库系统可以提供统一的用户界面,而存储和检索的数据来自多个不连续的资料库,甚至构成的数据库是异质的。为此,联邦数据库系统必须能够将查询分解为子查询以提交给相关组成部分。 之后系统也必须能将各子查询的结果集汇集。由于各种数据库管理系统采用不同的查询语言,联邦数据库系统可以将子查询加以转换为适当的查询语言。

    一个单元数据库可以加入若干个联邦系统,每个单元数据库系统可以是集中式的,也可以是分布式的,或者是另外一个FDBMS。
    在这里插入图片描述

    3、主题数据库
    主题数据库,顾名思义,这种数据库是面向主题的,根据不同的业务主题来进行组织和存储。例如,企业中需要建立的典型的主题数据库有:产品、客户、零部件、供应商、订货、员工、文件资料、工程规范等。

    与应用数据库只为一个应用系统服务,或者说根本就是隶属于特定的应用系统不同,主题数据库是为了信息共享。意思就是说,这个数据库是公共数据库,作为一种基础的数据资源而存在,可以给多个应用系统使用。这种数据资源,根据不同的业务主题分门别类,井井有条,一切都为了方便使用。

    主题数据库有一些特点。其中之一是表符合第三范式(3NF),规范化程度还是比较高的。这意味着主题数据库的表中没有冗余列、派生列、计算列这些东东,消除了非主属性对主属性的传递依赖。

    4、联邦数据库与分布式数据库的异同
    (我瞎掰的)

    【相同点】
    数据分布于不同计算机或地方,通过网络连接起来;每个节点(或称子数据库)都有自治能力;以一个统一的数据库对外提供服务。

    【不同点】
    联邦数据库的子数据库可以是异质的,而分布式数据库各节点数据库是同质的;联邦数据库的子数据库不同执行全局应用,而分布式数据库的节点可以通过通信子系统执行全局应用;联邦数据库的子数据库相互之间没有什么联系,数据可能不一样,而分布式数据库的节点可以存在多个副本,分布式数据库的可靠性比联邦数据库要高。本质上,联邦数据库是一个管理软件,本身并不存储数据,而分布式数据库是真正的数据库。

    三、数据仓库的设计方法

    1、自顶向下的方法
    由总体规划和设计开始,通过对原始数据进行抽取、转换和迁移等处理之后,将数据输出至一个集中的数据驻留单元,然后数据和元数据装载进入数据仓库。这样子建立起来的数据仓库就是企业级仓库,之后各个部门再从中获取本部门需要的数据形成从属数据集市。

    投资大,周期长,需求难以确定,开发人员要求高。但有长远价值。

    2、自底向上的方法
    核心思想是从企业最关键部门(或功能需求)开始,先以最少的投资完成当前的需求,获得最快的回报,然后再不断扩充和完善。这种方法最先产生的是独立数据集市,而后从多个独立数据集市抽取数据,形成企业级数据仓库。

    投入少,见效快。

    3、混合法
    上面两种方法结合。

    四、数据仓库的存储和管理

    1、ETL
    数据仓库的真正关键是数据的存储和管理。企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础、针对现有各业务系统的数据,进行抽取、清理、并有效集成,按照主题进行组织,整个过程可以简称为ETL(Extraction-Transformation-Loading,抽取、转换和加载)过程。

    ETL负责将分布的、异构数据源中的数据(例如,关系数据、平面数据文件等)抽取到临时中间层后进行清洗、转换和集成,最后加载到数据仓库或数据集市中,成为数据分析处理(OLAP)和数据挖掘的基础。

    数据仓库是一个独立的数据环境,通过抽取将数据从OLTP等各种源头导入。数据仓库中的数据不要求与源数据库实时同步,ETL可以定期进行。但ETL的操作时间、顺序、成败对数据仓库的信息有效性至关重要。

    2、非结构化数据
    数据仓库的数据通常来源多种多样,面对的数据,既有结构化数据,也会有像图片、视频这类的非结构化数据。如何管理非结构化数据,时数据仓库应用的一个重要问题。

    数据仓库采用元数据来管理非结构化数据。元数据记录数据的文件标识符、索引字、处理日期等信息,凭元数据能找到源文件;而且元数据包含的信息很多,甚至不用看源文件,只看元数据就行。非结构化数据对分析与决策同样有重要意义,但存储成本高,数据仓库不一定要保存这些数据,只要能找到它们就行;即使存储一部分,也可以根据情况变化而清除。

    五、数据的分析处理

    数据处理大致可以分为OLTP和OLAP。OLTP是传统数据库的应用,我们开发的应用程序大部分都使用该模式使用数据库。

    OLAP(联机分析处理)是数据仓库的主要应用。支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

    在这里插入图片描述
    在OLTP中,数据以二维表的形式进行组织,但在OLAP中,数据是多维的。

    六、数据挖掘

    将信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。

    数据挖掘采用各种科学方法,从大量数据中挖掘出隐含的、先前未知的规律和信息,可用于建立决策模型,为各领域提供预测性决策支持。

    1、概述
    1)体系结构
    在这里插入图片描述

    在这里插入图片描述
    2)数据挖掘流程
    (1)问题定义
    熟悉背景知识,弄清用户需求,对目标有清晰明确的定义,搞清楚到底想干什么。

    (2)建立数据挖掘库
    收集要挖掘的数据资源,收集到一个数据库中,一般不直接使用原数据库或者数据仓库。一方面挖掘过程中可能要修改数据,另一方面是统计分析比较复杂,数据仓库不一定支持相关的数据结构。

    好理解,拷贝数据出去以后,随便挖,随便折腾。

    (3)分析数据
    找规律和趋势

    (4)调整数据
    经过上面步骤之后,对数据状态和趋势有了进一步了解,为进一步明确和量化,需要对数据有针对性的增删。

    (5)模型化
    建立知识模型。这是数据挖掘的核心环节。

    (6)评价和解释
    对得到的模型进行检验。既可以拿挖掘库中的数据来检验,也可以取新数据进行检验。

    2、常用技术与方法
    1)挖掘技术
    神经网络,决策树等等

    2)分析技术
    (1)关联分析
    用于发现不同事件之间的关联性

    (2)序列分析
    用于发现一定时间间隔内接连发生的事件,这些事件构成的序列是否具有普遍意义。

    (3)分类分析
    对未知类别的样本进行分类。

    (4)聚类分析
    根据物以类聚的原理,将本身没有类别的样本聚集成不同的组。

    (5)预测方法
    根据样本的已知特征,预测其连续取值过程。

    (6)时间序列分析
    预测发展趋势。

    3、应用
    很多,如
    空间数据挖掘、多媒体数据挖掘、文本数据挖掘。数据挖掘最典型的故事,应该是啤酒和纸尿片。

    展开全文
  • 数据挖掘导论复习

    千次阅读 2021-01-09 09:44:33
    文章目录第1章 认识数据挖掘1、数据挖掘的定义2、有指导学习和无指导学习3、数据挖掘的过程4、数据挖掘的作用5、数据挖掘技术第2章 基本数据挖掘技术1、决策树概念和C4.5算法的一般过程2、决策树关键技术:最大增益...
  • 数据挖掘导论(中文版)完整版

    热门讨论 2014-01-07 08:51:58
    本书全面介绍了数据挖掘,涵盖了五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都有两章:前一章涵盖基本概念、代表性算法和评估技术,而后一章讨论高级概念和算法。这样读者在透彻地理解...
  • 数据挖掘近年来的研究方向、方法总结 一、研究方向 数据挖掘作为一个跨学科主题,它是用人工智能、机器学习、统计学和数据库交叉的方法在相对较大型的数据集中发现模式的计算过程。其目标是从数据集中提取信息并将其...
  • 数据挖掘与建模流程

    千次阅读 2022-03-04 18:24:07
    今天给大家分享一下关于数据挖掘建模的流程,这是小编在书里看到的,分享给大家,这样以后做事有头有尾,有据可循,包括定义目标、数据采集及取样、数据探索、数据预处理、建立数学模型、模型评价。
  • 数据挖掘——数据预处理

    千次阅读 2022-04-09 16:42:54
    数据挖掘》国防科技大学 《数据挖掘》青岛大学 《数据挖掘与python实践》 数据挖掘之数据预处理 1. 数据清洗 Data Cleaning 数据清洗:缺失值、噪声数据、离群点、不一致数据 (1)对于丢失数据: 忽略元组(对象...
  • 数据挖掘——关联规则挖掘

    千次阅读 2022-04-14 15:54:57
    数据挖掘》国防科技大学 《数据挖掘》青岛大学 数据挖掘之关联规则挖掘 关联规则挖掘(Association Rule Mining)最早是由Agrawal等人提出。最初的动机是解决购物篮分析(Basket Analysis)问题,目的是发现交易...
  • 数据挖掘——第三章:数据预处理

    千次阅读 2022-03-10 16:02:35
    文章目录1. 数据存在的问题1.1 原始数据存在的问题1.2 数据质量要求1.3 预处理主要任务2. 数据清洗2.1 空缺值处理2.2 噪声处理3. 数据集成3.1 集成过程中涉及的实体识别3.2 冗余...数据预处理是数据挖掘中的重要一环,
  • 如何进行数据挖掘

    千次阅读 2022-03-11 14:08:50
    数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊...
  • 什么是数据挖掘

    千次阅读 2021-09-05 23:46:40
    数据挖掘(Data Mining)技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库...
  • 机器学习和数据挖掘

    千次阅读 2020-10-27 21:08:00
    数据分析,或者说数据挖掘,目的是从大数据中寻找到有趣模式和知识。 数据挖掘,使用到了多种技术,包括统计学,模式识别,可视化,机器学习等等。今天我们来探究一下在数据挖掘领域,有哪些算法可以使用。 女士...
  • 如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则...
  • 数据挖掘分析之数据预处理

    千次阅读 2022-04-07 13:24:36
    目录 ...从数据挖掘命题自身出发,在确定了业务目标后,核心在于建立数据挖掘模型,不同的数据挖掘模型所需要的数据格式及要求均不同,而模型所需要的数据则不会那么标准的直接提供给我们,因此数据
  • 数据挖掘 期末超重点习题含答案(必考)

    千次阅读 多人点赞 2021-12-15 19:27:38
    数据挖掘 期末超重点习题(不挂科) 一、 单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. ...
  • 数据挖掘流程梳理

    千次阅读 2022-04-04 20:55:55
    数据挖掘流程 理解业务与数据 一个好的数据挖掘必须去理解业务,对业务好的理解能够帮助你选择合适的数据、合适的算法去训练,得到更好的结果 数据准备 数据准备是基于原始数据,去构建数据挖掘模型所需的数据集的...
  • 数据挖掘在各行业的应用论文

    热门讨论 2010-04-19 09:40:57
    数据挖掘在各行业的应用论文 数据仓库与数据挖掘.caj 空间数据挖掘技术.caj 数据仓库与数据挖掘技术及其在科技情报业的应用前景.caj 相关案件的数据挖掘.caj 数据挖掘技术.caj 一种实时过程控制中的数据挖掘算法研究...
  • 数据挖掘的概念和步骤

    千次阅读 2022-03-21 20:04:49
    一、数据挖掘概念 数据挖掘是从大量数据中通过数理统计算法搜索隐藏于其中的信息的过程。 数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化的...
  • 数据从哪里来呢?需要挖出来。有一个很形象的比喻,煤矿、石油需要挖掘,其实数据也同样需要挖掘,今天分享几个很好用的数据挖掘工具。
  • python数据挖掘入门

    2017-09-12 21:57:30
    python数据挖掘 python数据挖掘 python数据挖掘 python数据挖掘 python数据挖掘 python数据挖掘 python数据挖掘 python数据挖掘 python数据挖掘 python数据挖掘 python数据挖掘 python数据挖掘 python数据挖掘 ...
  • 数据挖掘十大算法

    千次阅读 2020-10-15 00:33:28
    数据挖掘十大算法一、C4.5 算法二、K-Means 算法三、朴素贝叶斯算法四、K 最近邻分类算法(KNN)五、EM 最大期望算法六、PageRank 算法七、AdaBoost八、Apriori 算法九、SVM 支持向量机十、CART 分类与回归树 ...
  • 数据挖掘和机器学习

    千次阅读 2022-03-13 08:28:23
    数据挖掘一般是指从海量数据中提取出其中无法直接获取的信息。通过各种数据源,将信息整合,发掘其内在关系。数据挖掘一般来说有6类,分别是回归、分类、预测、关联分析、预测分析和异常检测。 回归:确定两种及...
  • 很全面的数据挖掘本科课程设计,一定有适合你的哦

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 471,860
精华内容 188,744
关键字:

数据挖掘