精华内容
下载资源
问答
  • 神经网络的方法不常用于数据挖掘任务,因为他们可能具有复杂的结构,训练时间长,和不易理解的结果表示和常产生不可理解的模型,然而,神经网络具有对噪声数据的高承受能力和高精确度,是数据挖掘中的优先考虑。...
  • 用c++实现了数据挖掘算法中的神经网络和遗传算法的结合的实例!值得参考···
  • 介绍神经网络在商务数据挖掘中的作用的一篇论文
  • 神经网络技术应用于数据挖掘算法进行了分析,对算法模型以及实现进行了探讨,有效的利用了神经网络具有分析处理数据以及相应的记忆、学习能力,将该方法应用于数据挖掘过程中,通过对煤矿选煤过程中的原煤灰以及精煤灰...
  • Google搜索引擎的核心_PageRank算法综述 人工神经网络算法在数据挖掘中的应用
  • 针对当前电算化会计财务异常数据检测系统效率低下、人力及时间资源消耗大、智能化程度低等问题,文中提出了一种基于数据挖掘神经网络的财务异常数据监测分析算法。采用数据挖掘的方法对原始财务数据进行处理,...
  • 利用模糊系统对规则提取优势弥补了神经网络可解释性差缺点,并使用模糊神经网络来进行商业规则数据挖掘。通过建立模糊神经网络对训练好网络进行剪裁,最后提取模糊商业规则,说明了商业规则数据挖掘的全过程,并...
  • 通过神经网络节点来创建并训练神经网络。它通过模拟大量相互连接的简单处理单元工作,这些处理...模型名称:指定要生成的神经网络名称。选择“自动”单选按钮后,模型名根据目标字段名自动生成,这是默认设置。如选...

    通过神经网络节点来创建并训练神经网络。它通过模拟大量相互连接的简单处理单元工作,这些处理单元是按层排列的。在神经网络中通常有3部分:一个输入层,其单元代表输入字段;一个或者更多的隐藏层;以及一个输出层,其单元代表输出字段。这些单元通过不断变化的连接强度或权值连接。神经网络节点模型如下图所示。

    9774320a1a15bf18ddc9e5b572e83217.png

    模型名称:指定要生成的神经网络名称。选择“自动”单选按钮后,模型名根据目标字段名自动生成,这是默认设置。如选择“定制”单选按钮,可为模型指定用户定义的模型名。

    训练方式:Clementine为建立神经网络模型提供6种训练方式,如下表所示。

    b1a17e445d7c1c94f6429dae735fa587.png

    选择的训练方式发生变化,其“专家”选项卡选项也会发生相应的变化。

    预防过度训练:选择该选项后数据随机被拆分成训练集和验证集。网络在训练集中训练,而精确度则根据验证集估计。可以在“样本%”框中指定用于训练的数据比率(数据集中的其余部分用于验证)。

    设置随机数种子:如果没有设置随机数种子,则用于初始化神经网络权值的随机数序列在每次执行节点时各不相同。这样,即使神经网络设置和数据值完全一样,节点也会在各次执行生成不同的模型。选择该选项后,可以把随机数种子设置成某一具体值,这样结果模型就完全可再现。一个确定的随机数种子总是生成相同的随机数序列值,这样执行该节点总是生成同样的模型。

    停止于:可以从以下终止准则中选择一个。

    ·默认:在这一设置下,网络将在其看起来达到最佳训练状态时停止训练。如果该设置与“多重”训练方法一起使用,训练不好的神经网络在训练过程中将被舍弃。

    ·精确性%:选择该选项后,训练将一直持续直到达到指定精确度。也许永远不能达到指定精确度,但是可以在任意点终止训练并保存目前达到的最高精确度。

    ·周期:选择该选项后,训练将持续指定的循环数(通过数据的循环数)。

    ·时间(分钟):选择该选项后,训练将持续到指定的时间(以分钟计算)。

    为了完成目前循环,训练时间可能会略微超出指定的训练时间。

    神经网络的专家项

    神经网络节点专家各选项,随着所选择的训练方式的不同而发生变化。

    1. 快速方式专家

    快速方式专家如下图所示。一般通过“隐藏层”参数来选择神经网络的隐藏层数。更多的隐藏层可以帮助神经网络学习更为复杂的关系,同时也增加训练时间。我们还可以对每一层,指定其所包含的隐藏单元数。

    98bfb3c4105f1112ed199a874f7884ca.png

    2. 多重方式专家

    多重方式专家如下图所示,主要设置的项为拓扑结构。一般通过“拓扑”参数指定用于训练的神经网络的拓扑结构。拓扑结构通过指定每层的隐藏单元数给出,各单元数之间用逗号隔开。使用适当的参数数目,拓扑布局可以指定1到3个隐藏层。比如,一个只有一层隐藏层,隐藏层有十个单元的网络可以指定为10;有3个隐藏层,隐藏层所含单元分别为10,12,15的网络可以指定为10,12,15。

    7a68b478f9f53bc84175539ee651bb4d.png

    也可以提供用空格隔开的2到3个数字来指定一层中的隐藏单元范围。如果给的是两个数字,

    将创建一系列的神经网络,其包含单元数分别对应于第一个数字和第二个数字之间的各个整数(包括这两个数字)。比如,要生成每层分别含10,11,12,13和14个隐藏单元的神经网络,指定为10 14。要生成有两个隐藏层,第一个隐藏层所含隐藏单元范围为10到14,第二个隐藏层所含隐藏单元为8到12,则指定为10 14,8 12。在这种情况下,会生成包括所有可能的组合值的神经网络。如果给出第三个值,则用做第一个值到第二个值之间的增量。比如,要生成具有10,12,14,16个隐藏单元的类神经网络,指定为10162。

    最后,可以提供多重网络拓扑结构,用分号隔开。比如,要分别生成只有一个隐藏层,隐藏层所含单元为10,12,14,16,以及有两个隐藏层,第一个隐藏层有10个隐藏单元,第二个隐藏层有7到10个隐藏单元的神经网络,指定为10 16 2; 10 7 10。

    3. 修剪方式专家

    修剪方式专家的设置如下图所示。

    隐藏层:选择初始网络(修剪前)的隐藏层数。

    层1,2,3:指定在初始网络(修剪前)中每一隐藏层包含隐藏单元数。初始层数应该比使用其他训练方法的层数略微大一些。

    隐藏速率:指定在单个隐藏单元修剪中被剔除的隐藏单元比率数。

    隐藏持续次数:指定在训练未见改进时执行的隐藏单元修剪操作次数。

    输入速率:指定在单个输入单元修剪中被剔除的输入单元比率数。

    输入持续次数:指定在训练未见改进时执行的输入单元修剪操作次数。

    持续次数:指定在训练未见改进时,网络在尝试修剪前的训练次数。

    总体持续次数:指定在训练未见改进时进行的隐藏单元修剪/输入单元修剪次数。在使用预设停止模型时,运用该选项。

    47de20301335dff5e0ca197df014603b.png

    4. RBFN专家设置

    RBFN专家设置如下图所示。

    b38f92b9ddadfcae6f67567f692a2cb9.png

    RBFN聚类:指定使用的径向基函数个数或者聚类个数。这对应于隐藏层的大小。

    持续次数:指定在训练未见改进时网络继续训练的次数。

    RBF重叠:在RBFN中隐藏单元代表定义数据集中类别或区域的径向基函数。该参数有助于控制重叠的区域或类别。在训练中,正常情况下记录只影响距离最近的类别。通过提高这个参数,可以增加每个隐藏单元的关联区域,使记录能够影响更远的类别。此处应指定一个正实数。

    欢迎大家加入人工智能圈参与交流

    人工智能学习圈 - 知乎www.zhihu.com
    d72404b860228796579b1a5d9f95aa90.png
    展开全文
  • 基于粗糙集神经网络数据挖掘在门业制造车间质量控制中的应用,陈振,刘颖,本文在对门业制造车间质量控制的特点进行分析的基础上提出了一个基于粗糙集BP神经网络的质量预测模型。用粗糙集的属性约简对输入�
  • 数据挖掘——神经网络

    千次阅读 2018-06-27 00:38:51
    神经网络考虑以下二类训练样本集InstanceFeature vector Output label 1(0, 0)+2(1, 0)+3(0, 1)-4(-1, 0)-5(1, -1)-对此训练样本集,我们需要训练一个三层神经网络(输入层、单隐层、输出层),其中单隐层单元...

    神经网络

    考虑以下的二类训练样本集

    Instance

    Feature vector

    Output label

    1

    (0, 0)

    +

    2

    (1, 0)

    +

    3

    (0, 1)

    -

    4

    (-1, 0)

    -

    5

    (1, -1)

    -

    对此训练样本集,我们需要训练一个三层神经网络(输入层、单隐层、输出层),其中单隐层的单元(神经元)数目设为2,激活函数(activation function)为Sigmoid函数: 

    (1)在二维坐标系中画出这5个训练样本点,并讨论此训练样本集是否线性可分;

    (2)试分析将Sigmoid激活函数换成线性函数的缺陷;

    (3)令初始化参数全部为0,试运用前馈(feedforward)算法计算在初始化参数下此三层神经网络的输出;然后运用反向传播(backpropagation)算法,计算代价函数对所有参数的偏导数,并讨论将初始化参数全部设为0所带来的问题

    (4)试给出一个神经网络(画出架构图,并写出激活函数及其对应的参数),使此训练样本集的5个训练样本点都可以被正确分类。

    答:

    1

    由图可以看出,不存在任意一条直线可以将样本正确分类,所以此训练样本线性不可分。

    2

    使用Sigmoid激活函数,给神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网络就可以应用到众多的非线性模型中。而如果将Sigmoid函数换成线性函数,则隐藏层就失去了意义,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合。

    3

    在前馈算法中,矩阵权重初始化为0导致计算的结果都为‘+’,分类不正确,神经网络没起到任何作用;在BP算法中,权重初始为0,将导致最终结果都为0,反向传播也失去了意义。
    (4)

    设计RBF神经网络如图,


    通常采用两步过程来训练RBF网络,第一步:确定神经元中心Ci,常用的方式包括随机取样,聚类等;第二步,利用BP算法等来确定参数wiβi

    经过代码测试,取隐藏层数为10,学习率为0.5,结果如图:



    展开全文
  • 本篇我们将要总结算法为:Microsoft 神经网络分析算法,此算法微软挖掘算法系列最复杂也是应用场景最广泛一个,简单点讲:就是模拟我们大脑从茫茫数据海洋思考出有用信息,来达到数据挖掘的目的。...
    本篇我们将要总结的算法为:Microsoft 神经网络分析算法,此算法微软挖掘算法系列中最复杂也是应用场景最广泛的一个,简单点讲:就是模拟我们的大脑从茫茫的数据海洋中思考出有用的信息,来达到数据挖掘的目的。原理可以参考上篇。
    

    应用场景介绍

    关于Microsoft神经网络算法的应用场景还是蛮多的,在上一篇原理篇我们就介绍过,其主要是应用在以下领域:

    • 营销和促销分析,如评估直接邮件促销或一个电台广告活动的成功情况。
    • 根据历史数据预测股票升降、汇率浮动或其他频繁变动的金融信息。

    • 分析制造和工业流程。

    • 文本挖掘。

    • 分析多个输入和相对较少的输出之间的复杂关系的任何预测模型。

    当然以上的应用场景说的很泛泛,并且没有一个特定的应用场景,这个是可以理解的,因为此算法为模拟生物行型算法,也就是说在特定的环境中只要有足够的”证据“支持,我们人类自己能通过主观判断出结果的应用场景,Microsoft神经网络算法就能应用,但是当我们人脑思维对于少量”证据“下可以主观的判断,但是面对茫茫的”证据“海洋下我们人类脑子想要理清头绪,然后判断出结果就比较吃力了,这样的就是神经网络应用场景了。

    上面的几种应用场景中,并不是只有Microsoft神经网络算法就能挖掘的,比如:营销中评比邮件还是电台广告这两种方式那种更有效,其实这是Microsoft决策树分析算法的最佳应用场景;历史数据预测股票升降这个是Microsfot时序算法的典型应用场景;....但是所有的这些这些...是因为我们能确定下来前提或者说挖掘范围:比如:营销评比,我们就比较邮件还有电台广告...但是出现一种特殊情况:比如两者都不能促进营销...反而是因为公司最近加强了销售手段而提升的,或者说某种不确定的因素造成的业绩提升,对于这种情况我们利用Microsoft决策树算法也是没用的。而用Microsoft神经网络算法就可以分析出来。

    还有一种更特殊的应用场景:当我们面对一堆的数据而要基于某种目的去数据挖掘时,感觉到无从下手或者在DM中选择不到合适的算法的时候,这时候就是Microsoft神经网络分析算法的应用场景了。

    技术准备

    (1)微软案例数据仓库(AdventureWorksDW208R2),案例数据仓库中的呼叫中心的数据表,一张事实表FactCallCenter,下面步骤中我们会详细介绍这张表里面的数据。

    (2)VS2008、SQL Server、 Analysis Services。

    挖掘目的

    在一些大的商业公司中都有自己的呼叫中心,比如:移动的10086,联通的10000....等等,而这些呼叫中心中除了再联系完他们之后让你选择:满意、不满意、灰常不满意来作为他们的服务等级标准外,在行业中还有一个指标来评比,这个指标被称作:挂断率,用来反映客户的失望度,就是在我们接进他们的客服中心的之间,如果选择人工服务,他让你等待...你不爽,挂断了,这就产生了一个挂断事例,而通过挂断事例总和在所有呼入人数的所占比就是挂断率指标了。挂断率越高说明他们客服中心服务质量越差。

    挖掘的目的就是找出影响“挂断率”的因素有哪些,是客服MM太少?态度不好?声音不甜美?服务不周到?.........从而提高呼叫中心的服务质量,增加营收。

    操作步骤

    (1)我们这里还是利用上一期的解决方案,直接打开,添加数据源视图,方法参照前几篇,我们直接看图:

    右键,来浏览下这个表中的数据明细:

    参照微软案例数据库官方说明,我们将这个事实表里面数据明细列出来。下面是字段说明:

    列名

    包含内容

    FactCallCenterID

    数据导入到数据仓库中时创建的一个任意键。

    DateKey

    呼叫中心的运营日期。

    由于供应商为每个运营日中的每个轮班时间都提供了一个单独的报表,因此日期不是唯一的。

    WageType

    指示当天是工作日、周末还是节假日。

    Shift

    指示为其记录呼叫的轮班时间。此呼叫中心将工作日划分为四个轮班时间:AM、PM1、PM2 和 Midnight。

    LevelOneOperators

    指示值班的一级接线员的数量。呼叫中心员工从一级开始起步。

    LevelTwoOperators

    指示值班的二级接线员的数量。员工必须达到一定数量的工作小时数后,才有资格成为二级接线员。

    TotalOperators

    此轮班时间内存在的接线员的总数。

    Calls

    此轮班时间内收到的呼叫数。

    AutomaticResponses

    完全通过自动呼叫处理(交互式语音应答,即 IVR)来处理的呼叫数。

    Orders

    由呼叫产生的订单数。

    IssuesRaised

    由呼叫产生的需要后续操作的问题的数量。

    AverageTimePerIssue

    应答一次来电所需的平均时间。

    ServiceGrade

    指示此轮班时间的“挂断率”。挂断率是呼叫中心经常使用的一个指标。挂断率越高,说明客户的满意度越差,因此丢失潜在订单的可能性也就越大。挂断率是按轮班时间计算的。

    其实上面的表中已经列出了几个关键字段,我们来看,其中我们上面提到的“挂断率”:ServiceGrade字段了,前面的一些行就是记录一些呼叫中心工作信息了,当我们面对这些信息是无从下手的,因为我们看不出来那些因素会影响到ServiceGrade指标值的大小的,当然这时候我们就用Microsoft神经网络分析算法采取诱探的方式进行挖掘分析了。

    (2)新建挖掘结构

    我们来新建这个数据挖掘模型,简单的步骤,具体内容可参照我之前的博客内容,看几个关键步骤:

    我们点击下一步,然后进行输入和输出的设置

    这里我们不知道那些因素会影响到“挂断率”这个指标,我们就乖乖的全选得了,这叫做:宁滥勿缺!....我去....但是有两个我们还是没选,一个DateKey..这个是上班记录日期,我基本可以肯定这个指标和那天上班没有毛关系,当然你也可以选择,那处理时间更长一些,还有一个是FactCallCenterID,这个是键值,肯定不选择的,然后输出我们选择了:ServiceGrade挂断率、然后还有Orders(产生的订单量),这个和绩效有关,我们顺便看看那些因素会产生更多的订单,选他的原因你懂得!然后还有一个LevelOneOperators,这个是第一个岗位的数量,通过它我们可以分析出这种分两种岗位级别会不会有用。

    我们点击下一步:

    这里提示下,神经网络分析算法是不允许钻取的,这个是可以理解的,因为它不是线性函数,也就是说你钻取的是一个个“神经元”节点,而这些“神经元”同样又依靠其它的“神经元”支撑,所以理论上你的下钻是毫无意义的,不明白的可以参考我上篇原理篇。

    我们来部署该挖掘模型,然后进行处理,过程简单,不废话介绍。

    结果分析

    不介绍,我们直接上图看结果

    神经网络的“模型查看器”很简单,可以看到只有一个面板,里面分为两部分:输入和输出,下面的就是各个变量的属性值,通过操作上面的输入和输出就可以分析不同变量对输出的影响了,这个类似于“聚类分析算法”的特征分析面板。

    输入属性很简单,我们可以选择上面我们选择的各种属性:

    可以选择值

    这里我们可以看到,上面我们选择了“自助应答”这个值,但是它显示的值是一个分段的区间值,这里我们要说明一下神经网络的特点,对于离散型属性值,Microsoft神经网络是采取采样分段来进行区间值截断,但是这个区间值并不是严格意义的按照数学上的等比数列进行分组,比如:

    我们来看一下ServiceGrade这个离散值在vs中的分组方式:

    ServiceGrade 属性在理论上是介于 0.00(应答所有呼叫)和 1.00(挂断所有呼叫)之间的数值,但是在神经网络算法中是按照上面的图进行分组的,会将分组成 0.0748051948 - 0.09716216215 这样的范围。尽管此分组在数学上很准确,但此类范围可能对业务用户并没有太大意义。要以不同的方式对数值进行分组,可以创建数值数据列的一个或多个副本,并指定数据挖掘算法应如何处理这些值。这样更能顺利的接近我们的目标分析值。

    我们可以看到,这个输出也是同样的方式:

    下面我们来分析上面的第一个挖掘目的:那些因素会影响(挂断率)Service Grade.我们选择一个分组最高的,一个分数最低的

    上图总可以看到,我们选择的输出为“挂断率”:Service Grade 这里选择了两个区间:0.030-0.072和0.126-0.210,0.210的概念就是有一百个客户打来电话,人家不爽,给你挂断的人数有21个,已经是一个很高的值了,这个值越高说明服务质量越差,我们来看一下变量,很明显:影响“挂断率”的第一个因素为:Average Time Per Issue(应答花费的平均时间)。

    “应答花费的平均时间”在44.000-70.597之间的更倾向于0.030-0.072这个低分值的应答率,说明啥?也就是说人家打来电话一般在这个时间给你解决掉的,人家都比较满意,都不会挂断你。

    第二个因素“Orders”订单数量,这个也是在321.940-539.000之间的,挂断率更低,其实这个应该是因为挂断率低而导致订单数量增加

    我们来看第三个因素“应答花费的平均时间”在89.087-120.000之间的,挂断率直接飙升到0.126-0.210.....纳尼!!!这是为毛?...客服应答的时间越久...挂断率越高!

     哦哦...我猜这部分一般是客服MM给人家解释的不满意,然后人家一直想问明白,丫的客服MM就是解释不清楚,于是乎客户果断挂电话,不再鸟你了。当然还存在一种情况就是客户打电话一直骚扰着客户MM...然后...然后客服MM就给挂断了...当然..这些就是猜测了...我们不关心过程,只关心结果:在这个区间的挂断率就是高,有图有真相。

    我好奇的比较下“应答花费的平均时间”的两个区间的对比值,我们来看:

    嘿嘿....应答平均时间在区间44.000-70.597之间的“挂断率”就是很低,而且评分在100分!看上图,概率在53.48%,而成为高“挂断率”的概率才为:6.18%。

    下面的应答平均时间在区间89.087-120.000之间的“挂断率”很高,评分在74.01,评分值的高低反映的就是这个判断的可信度大小,并且看成为高“挂断率”的概率飙升为:45.22%。

    再往下看,我们还发现了一个更可爱的情况,截个图看看:

     这个Shift的值代表为轮班时间,看上面的值显示的是midnight....深夜...漆黑的夜晚...给客服MM打电话的挂断率概率都挺低的....这是神马原因.....看来微软给的案例数据库数据还是挺真实的!

    其它的属性我这里就不分析了,方法同上。其实到这里我们已经利用Microsoft神经网络分析算法已经分析出影响“挂断率”最重要的因素为:Average Time Per Issue(应答平均时间),下面我们调整输入,直接来分析这个因素:

    在44.000-70.597之间的,清一色的低挂断率,并且产生的订单量最可能为321.940-539.000,汗...你妹...上班期间最好还是在深夜。下面接着看:

    换了一个区间...结果基本没变,原因不解释

    下一个区间,情况发生了变化,在这个区间里,订单为50.000-181.677之间的已经展现出来高”挂断率“的趋势。

    .....我去...到了这个区间...成了清一色的高”挂断率”,并且上班时间成了(PM2)下午....订单数减少至50.000-181.677....看来下午客服中心应该都放假,全部改成“深夜”上班...嘿嘿...

    为此我通过数据源视图浏览数据,通过透视表来验证一下我们的推断是否正确,看看下面的图就知道了:

    是吧...平均应答时间越久,应答率分数越高,说明挂断率越高。

    我们也可以借助Microsoft神经网络算法的特性,对上面咱们推断的结论进行反向验证,我们将输出改成Average Time Per Issue “应答平均时间”,然后还是选择两个区间值来看看,影响这个属性的变量值有哪些

    看到了嘛...很高的挂断率在0.126-0.210之间的应答平均时间更倾向于89.087-120.000,同样低“挂断率”的就趋向于44.000-79.597了。

    咱们属性值就分析到这里,有兴趣的童鞋可以继续分析其它的。

    结语

    本篇文章到此结束了...关于Microsoft神经网络算法的应用场景非常的广泛,其实这几年渐渐兴起的语音识别、人工智能、文本挖掘等领域背后的最重要的支撑算法就是神经网络算法了,有关基础原理可以参照我上一篇文章,本篇就不做深入介绍了,后续文章继续分析其它问题。

    展开全文
  • 本文重点研究数据挖掘中采用的神经网络算法问题。神经网络算法是数据挖掘技术中常用的一种算法,具有高正确率、抗噪声数据能力强等优势。SQL Server 2005为我们提供了一种简单的方式来应用神经网络算法。我的毕设...
  • 介绍了数据挖掘的定义和常用方法,研究了基于遗传BP神经网络的数据挖掘算法,并对其交叉算子进行了改进,提高算法训练速度。实验结果表明,将该方法应用于油气识别,效果良好,具有一定实际应用价值。
  • 有段时间没有进行我们的微软数据挖掘算法系列了,最近手头有点忙,鉴于上一篇的神经网络分析算法原理篇后,本篇将是一个实操篇,当然前面我们总结了其它的微软一系列算法,为了方便大家阅读,我特地整理了一篇目录...

    前言

    有段时间没有进行我们的微软数据挖掘算法系列了,最近手头有点忙,鉴于上一篇的神经网络分析算法原理篇后,本篇将是一个实操篇,当然前面我们总结了其它的微软一系列算法,为了方便大家阅读,我特地整理了一篇目录提纲篇:大数据时代:深入浅出微软数据挖掘算法总结连载, 我打算将微软商业智能中在DM这块所用到的算法全部集中在这个系列中,每篇包含简要算法原理、算法特点、应用场景以及具体的操作详细步骤,基本能涵盖大部 分的商业数据挖掘的应用场景,有兴趣的童鞋可以点击查阅。本篇我们将要总结的算法为:Microsoft 神经网络分析算法,此算法微软挖掘算法系列中最复杂也是应用场景最广泛的一个,简单点讲:就是模拟我们的大脑从茫茫的数据海洋中思考出有用的信息,来达到数据挖掘的目的。原理可以参考上篇。

    应用场景介绍

    关于Microsoft神经网络算法的应用场景还是蛮多的,在上一篇原理篇我们就介绍过,其主要是应用在以下领域:

    • 营销和促销分析,如评估直接邮件促销或一个电台广告活动的成功情况。
    • 根据历史数据预测股票升降、汇率浮动或其他频繁变动的金融信息。

    • 分析制造和工业流程。

    • 文本挖掘。

    • 分析多个输入和相对较少的输出之间的复杂关系的任何预测模型。

    当然以上的应用场景说的很泛泛,并且没有一个特定的应用场景,这个是可以理解的,因为此算法为模拟生物行型算法,也就是说在特定的环境中只要有足够 的”证据“支持,我们人类自己能通过主观判断出结果的应用场景,Microsoft神经网络算法就能应用,但是当我们人脑思维对于少量”证据“下可以主观 的判断,但是面对茫茫的”证据“海洋下我们人类脑子想要理清头绪,然后判断出结果就比较吃力了,这样的就是神经网络应用场景了。

    上面的几种应用场景中,并不是只有Microsoft神经网络算法就能挖掘的,比如:营销中评比邮件还是电台广告这两种方式那种更有效,其实这是 Microsoft决策树分析算法的最佳应用场景;历史数据预测股票升降这个是Microsfot时序算法的典型应用场景;....但是所有的这些这 些...是因为我们能确定下来前提或者说挖掘范围:比如:营销评比,我们就比较邮件还有电台广告...但是出现一种特殊情况:比如两者都不能促进营 销...反而是因为公司最近加强了销售手段而提升的,或者说某种不确定的因素造成的业绩提升,对于这种情况我们利用Microsoft决策树算法也是没用 的。而用Microsoft神经网络算法就可以分析出来。

    还有一种更特殊的应用场景:当我们面对一堆的数据而要基于某种目的去数据挖掘时,感觉到无从下手或者在DM中选择不到合适的算法的时候,这时候就是Microsoft神经网络分析算法的应用场景了。

    技术准备

    (1)微软案例数据仓库(AdventureWorksDW208R2),案例数据仓库中的呼叫中心的数据表,一张事实表FactCallCenter,下面步骤中我们会详细介绍这张表里面的数据。

    (2)VS2008、SQL Server、 Analysis Services。

    挖掘目的

    在一些大的商业公司中都有自己的呼叫中心,比如:移动的10086,联通的10000....等等,而这些呼叫中心中除了再联系完他们之后让你选择:满意、不满意、灰常不满意来作为他们的服务等级标准外,在行业中还有一个指标来评比,这个指标被称作:挂断率,用来反映客户的失望度,就是在我们接进他们的客服中心的之间,如果选择人工服务,他让你等待...你不爽,挂断了,这就产生了一个挂断事例,而通过挂断事例总和在所有呼入人数的所占比就是挂断率指标了。挂断率越高说明他们客服中心服务质量越差。

    挖掘的目的就是找出影响“挂断率”的因素有哪些,是客服MM太少?态度不好?声音不甜美?服务不周到?.........从而提高呼叫中心的服务质量,增加营收。

    操作步骤

    (1)我们这里还是利用上一期的解决方案,直接打开,添加数据源视图,方法参照前几篇,我们直接看图:

    右键,来浏览下这个表中的数据明细:

    参照微软案例数据库官方说明,我们将这个事实表里面数据明细列出来。下面是字段说明:

    列名

    包含内容

    FactCallCenterID

    数据导入到数据仓库中时创建的一个任意键。

    DateKey

    呼叫中心的运营日期。

    由于供应商为每个运营日中的每个轮班时间都提供了一个单独的报表,因此日期不是唯一的。

    WageType

    指示当天是工作日、周末还是节假日。

    Shift

    指示为其记录呼叫的轮班时间。此呼叫中心将工作日划分为四个轮班时间:AM、PM1、PM2 和 Midnight。

    LevelOneOperators

    指示值班的一级接线员的数量。呼叫中心员工从一级开始起步。

    LevelTwoOperators

    指示值班的二级接线员的数量。员工必须达到一定数量的工作小时数后,才有资格成为二级接线员。

    TotalOperators

    此轮班时间内存在的接线员的总数。

    Calls

    此轮班时间内收到的呼叫数。

    AutomaticResponses

    完全通过自动呼叫处理(交互式语音应答,即 IVR)来处理的呼叫数。

    Orders

    由呼叫产生的订单数。

    IssuesRaised

    由呼叫产生的需要后续操作的问题的数量。

    AverageTimePerIssue

    应答一次来电所需的平均时间。

    ServiceGrade

    指示此轮班时间的“挂断率”。挂断率是呼叫中心经常使用的一个指标。挂断率越高,说明客户的满意度越差,因此丢失潜在订单的可能性也就越大。挂断率是按轮班时间计算的。

    其实上面的表中已经列出了几个关键字段,我们来看,其中我们上面提到的“挂断率”:ServiceGrade字段了,前面的一些行就是记录一些呼叫 中心工作信息了,当我们面对这些信息是无从下手的,因为我们看不出来那些因素会影响到ServiceGrade指标值的大小的,当然这时候我们就用 Microsoft神经网络分析算法采取诱探的方式进行挖掘分析了。

    (2)新建挖掘结构

    我们来新建这个数据挖掘模型,简单的步骤,具体内容可参照我之前的博客内容,看几个关键步骤:

    我们点击下一步,然后进行输入和输出的设置

    这里我们不知道那些因素会影响到“挂断率”这个指标,我们就乖乖的全选得了,这叫做:宁滥勿缺!....我去....但是有两个我们还是没选,一个 DateKey..这个是上班记录日期,我基本可以肯定这个指标和那天上班没有毛关系,当然你也可以选择,那处理时间更长一些,还有一个是 FactCallCenterID,这个是键值,肯定不选择的,然后输出我们选择了:ServiceGrade挂断率、然后还有Orders(产生的订单 量),这个和绩效有关,我们顺便看看那些因素会产生更多的订单,选他的原因你懂得!然后还有一个LevelOneOperators,这个是第一个岗位的 数量,通过它我们可以分析出这种分两种岗位级别会不会有用。

    我们点击下一步:

    这里提示下,神经网络分析算法是不允许钻取的,这个是可以理解的,因为它不是线性函数,也就是说你钻取的是一个个“神经元”节点,而这些“神经元”同样又依靠其它的“神经元”支撑,所以理论上你的下钻是毫无意义的,不明白的可以参考我上篇原理篇。

    我们来部署该挖掘模型,然后进行处理,过程简单,不废话介绍。

    结果分析

    不介绍,我们直接上图看结果

    神经网络的“模型查看器”很简单,可以看到只有一个面板,里面分为两部分:输入和输出,下面的就是各个变量的属性值,通过操作上面的输入和输出就可以分析不同变量对输出的影响了,这个类似于“聚类分析算法”的特征分析面板。

    输入属性很简单,我们可以选择上面我们选择的各种属性:

    可以选择值

    这里我们可以看到,上面我们选择了“自助应答”这个值,但是它显示的值是一个分段的区间值,这里我们要说明一下神经网络的特点,对于离散型属性 值,Microsoft神经网络是采取采样分段来进行区间值截断,但是这个区间值并不是严格意义的按照数学上的等比数列进行分组,比如:

    我们来看一下ServiceGrade这个离散值在vs中的分组方式:

    ServiceGrade 属性在理论上是介于 0.00(应答所有呼叫)和 1.00(挂断所有呼叫)之间的数值,但是在神经网络算法中是按照上面的图进行分组的,会将分组成 0.0748051948 - 0.09716216215 这样的范围。尽管此分组在数学上很准确,但此类范围可能对业务用户并没有太大意义。要以不同的方式对数值进行分组,可以创建数值数据列的一个或多个副本, 并指定数据挖掘算法应如何处理这些值。这样更能顺利的接近我们的目标分析值。

    我们可以看到,这个输出也是同样的方式:

    下面我们来分析上面的第一个挖掘目的:那些因素会影响(挂断率)Service Grade.我们选择一个分组最高的,一个分数最低的

    上图总可以看到,我们选择的输出为“挂断率”:Service Grade 这里选择了两个区间:0.030-0.072和0.126-0.210,0.210的概念就是有一百个客户打来电话,人家不爽,给你挂断的人数有21个, 已经是一个很高的值了,这个值越高说明服务质量越差,我们来看一下变量,很明显:影响“挂断率”的第一个因素为:Average Time Per Issue(应答花费的平均时间)。

    “应答花费的平均时间”在44.000-70.597之间的更倾向于0.030-0.072这个低分值的应答率,说明啥?也就是说人家打来电话一般在这个时间给你解决掉的,人家都比较满意,都不会挂断你。

    第二个因素“Orders”订单数量,这个也是在321.940-539.000之间的,挂断率更低,其实这个应该是因为挂断率低而导致订单数量增加

    我们来看第三个因素“应答花费的平均时间”在89.087-120.000之间的,挂断率直接飙升到0.126-0.210.....纳尼!!!这是为毛?...客服应答的时间越久...挂断率越高!

     哦哦...我猜这部分一般是客服MM给人家解释的不满意,然后人家一直想问明白, 丫的客服MM就是解释不清楚,于是乎客户果断挂电话,不再鸟你了。当然还存在一种情况就是客户打电话一直骚扰着客户MM...然后...然后客服MM就给 挂断了...当然..这些就是猜测了...我们不关心过程,只关心结果:在这个区间的挂断率就是高,有图有真相。

    我好奇的比较下“应答花费的平均时间”的两个区间的对比值,我们来看:

    嘿嘿....应答平均时间在区间44.000-70.597之间的“挂断率”就是很低,而且评分在100分!看上图,概率在53.48%,而成为高“挂断率”的概率才为:6.18%。

    下面的应答平均时间在区间89.087-120.000之间的“挂断率”很高,评分在74.01,评分值的高低反映的就是这个判断的可信度大小,并且看成为高“挂断率”的概率飙升为:45.22%。

    再往下看,我们还发现了一个更可爱的情况,截个图看看:

     这个Shift的值代表为轮班时间,看上面的值显示的是midnight....深夜...漆黑的夜晚...给客服MM打电话的挂断率概率都挺低的....这是神马原因.....看来微软给的案例数据库数据还是挺真实的!

    其它的属性我这里就不分析了,方法同上。其实到这里我们已经利用Microsoft神经网络分析算法已经分析出影响“挂断率”最重要的因素为:Average Time Per Issue(应答平均时间),下面我们调整输入,直接来分析这个因素:

    在44.000-70.597之间的,清一色的低挂断率,并且产生的订单量最可能为321.940-539.000,汗...你妹...上班期间最好还是在深夜。下面接着看:

    换了一个区间...结果基本没变,原因不解释

    下一个区间,情况发生了变化,在这个区间里,订单为50.000-181.677之间的已经展现出来高”挂断率“的趋势。

    .....我去...到了这个区间...成了清一色的高”挂断率”,并且上班时间成了(PM2)下午....订单数减少至50.000-181.677....看来下午客服中心应该都放假,全部改成“深夜”上班...嘿嘿...

    为此我通过数据源视图浏览数据,通过透视表来验证一下我们的推断是否正确,看看下面的图就知道了:

    是吧...平均应答时间越久,应答率分数越高,说明挂断率越高。

    我们也可以借助Microsoft神经网络算法的特性,对上面咱们推断的结论进行反向验证,我们将输出改成Average Time Per Issue “应答平均时间”,然后还是选择两个区间值来看看,影响这个属性的变量值有哪些

    看到了嘛...很高的挂断率在0.126-0.210之间的应答平均时间更倾向于89.087-120.000,同样低“挂断率”的就趋向于44.000-79.597了。

    咱们属性值就分析到这里,有兴趣的童鞋可以继续分析其它的。

    结语

    本篇文章到此结束了...关于Microsoft神经网络算法的应用场景非常的广泛,其实这几年渐渐兴起的语音识别、人工智能、文本挖掘等领域背后 的最重要的支撑算法就是神经网络算法了,有关基础原理可以参照我上一篇文章,本篇就不做深入介绍了,后续文章继续分析其它问题。

    转载于:https://www.cnblogs.com/captain_ccc/articles/4093698.html

    展开全文
  •  晶体图神经网络晶体图神经网络(CGNNs)引入了一种比例不变图协调器(Crystal Graph Coordinator)来构成晶体图,用于在 OQMD 数据集上训练 CGNN 模型。CGNN模型对每一种测试材料形成能、单元体积、带隙和总磁化...
  • 这篇案例用人工神经网络算法对铅酸电池制造业OEE统计情况进行分析:对OEE记录数据集进行训练,用训练好模型对测试集测试,预测OEE。 OEE:设备综合效率,即表现设备实际生产能力相对于理论产能比率,是一种...
  •  晶体图神经网络 晶体图神经网络(CGNNs)引入了一种比例不变图协调器(Crystal Graph Coordinator)来构成晶体图,用于在 OQMD 数据集上训练 CGNN 模型。CGNN模型对每一种测试材料形成能、单元体积、带隙和总...
  • 神经网络就是利用其算法特点来模拟人脑思维的第二种方式,它是一个非线性动力学系统,其特点就是信息分布式存储和并行协同处理,虽然单个神经元的结构及其简单,功能有限,但是如果大量的神经元构成的网络系统所能...
  • 基于决策树和遗传算法的神经网络研究及应用 摘要 当今社会人类所存储的数据是成千上万的,如何能够更有效的利用好这些信息已经越来越受到人们的重视而数据挖掘正是一种从数据提取有用的信息,并将之应用于各个行业的...
  • 对常用空间数据挖掘方法...与此相反, 神经网络方法由于其固有自学习能力和抗干扰能力, 在空间数所挖掘 领域有着广泛应用前景。最后在空间数据挖掘领域引入GSOM 网络, 用于空间聚类, 通过实例证明, 效果较 好。
  • 由于本人这段时间在学习数据挖掘的知识,学习了人工神经网络刚好就把学习一些笔记弄出来,也为以后自己回头看时候方便些。 神经网络学习方法对于逼近实数值、离散值或向量值目标函数提供了一种健壮性很强...
  • R关于神经网络的包:nnet、AMORE、neuralnet以及RSNNS nnet包提供了最常见前馈反向传播神经网络算法,构建单隐层神经网络; AMORE包则进一步提供了更为丰富控制参数,并可以增加多个隐层; neuralnet包改进...
  • content 概述 文字识别系统LeNet-5 简化LeNet-5系统 卷积神经网络的实现问题 ...深度神经网路已经在语音识别,图像识别等...我不打算详细描述卷积神经网络的生物学运行机理,因为网络上有太多教程可以参考。...
  • 数据挖掘——SVM和神经网络

    千次阅读 2016-07-28 17:16:37
    SVM是最优秀、准确而健壮算法之一,维度不敏感,可处理线性可分和线性不可分数据。分为SVC和SVR。 优势:分类性能好、稳定性高、算法更新快。 一般选择RBF作为核函数。 SVM分类决策起决定作用是支持向量。 ...
  • 1. 神经网络基本原理 2. BP神经网络 3. RBF神经网络 4. Hopfield神经网络 5. SOFM神经网络 6. 神经网络数据挖掘中的应用
  • 数据处理、SVM、决策树、神经网络背景介绍与实验目标背景介绍实验目标数据挖掘分析与建模分析流程数据初步探索与分析数据预处理数据缺失值处理数据编码模型及算法构建决策树模型sklearn高斯朴素贝叶斯算法神经网络...
  • 在这里,以Java为程序设计语言,运用强大JDK工具包,在Eclipse3.2平台上,以基因数据为研究对象,设计出一款基于人工神经网络数据挖掘的生物信息分析软件。根据基因数据结构,对基因序列碱基进行编码变换;...
  • 在葡萄酒制造业,对于葡萄酒分类具有很大意义,因为这涉及到不同种类葡萄酒存放以及出售价格,采用SVM做为分类器可以有效预测相关葡萄酒种类,从UCI数据库得到wine数据记录是在意大利某一地区同一区域上三...
  • 目前数据挖掘方法主要有4种,这四种算法包括遗传、决策树、粗糙集和神经网络算法。以下对这四种算法进行一一解释说明。...这种算法具有隐含并行性、易与其它模型联合等优点从而在数据挖掘中得到了应用。 决...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 862
精华内容 344
关键字:

数据挖掘中的神经网络