精华内容
下载资源
问答
  • 不同数据做关联规则分析
    万次阅读
    2018-08-12 14:01:18

    关联规则分析也称为购物篮分析,最早是为了发现超市销售数据库中不同的商品之间的关联关系。

    用于寻找数据集中各项之间的关联关系。根据所挖掘的关联关系,可以从一个属性的信息来推断另一个属性的信息。当置信度达到某一阈值时,可以认为规则成立。

    常用的关联规则算法

    算法名称算法描述
    Apriori

    关联规则最常用、最经典的挖掘频繁项集的算法,核心思想是通过连接产生候选项及其支持度,然后通过剪枝生成频繁项集

    无法处理连续型数值变量,往往分析之前需要对数据进行离散化。

    FP-Tree

    针对Apriori算法固有的多次扫描事务数据集的缺陷,提出的不产生候选频繁项集的方法。

    Apriori和FP-Tree都是寻找频繁项集的算法

    Eclat算法一种深度优先算法,采用垂直数据表示形式,在概念格理论的基础上利用基于前缀的等价关系将搜索空间划分为较小的子空间
    灰色关联法分析和确定各因素之间的影响程度,或是若干个子因素(子序列)对主因素(母序列)的贡献度而进行的一种分析方法

    本文介绍最常用的Apriori算法。

    项集:项的集合。包含k个项的项集成为k项集,如集合{牛奶、麦片、糖}是一个3项集

    频繁项集:如果项集I的相对支持度满足预定义的最小支持度阈值,则I是频繁项集

    支持度(相对支持度):项集A、B同时发生的概率。

    置信度:项集A发生,则项集B发生的概率。

    最小支持度:用户或专家定义的衡量支持度的一个阈值,表示项集在统计意义上的最低重要性。

    最小置信度:用户或专家定义的衡量置信度的一个阈值,表示关联规则的最低可靠性。同时满足最小支持度阈值和最小置信度阈值的规则成为强规则。

    目前,设置最小支持度和最小置信度,大部分根据业务经验设置初始值,然后经过多次调整,获取与业务相符的关联规则结果。


    举例1:

    R语言实现:

    1、创建稀疏矩阵

    tr <- read.transactions("menu_orders.txt",format="basket",sep=",") #读入源数据并创建稀疏矩阵
    #format=c("basket", "single")用于注明源数据的格式。如果源数据每行内容就是一条交易购买的商品列表(类似于一行就是一个购物篮)那么使用basket;如果每行内容是交易号+单个商品,那么使用single。
    summary(tr) #查看数据集相关的统计汇总信息
    
    inspect(tr) #查看稀疏矩阵的内容

    输出如下:

    2、采用Apriori算法建模

    rule0 = apriori(tr,parameter = list(support=0.2,confidence = 0.5)) #设定支持度为0.2,置信度为0.5

    3、输出模型结果

    inspect(rule0)

    输出结果如下:

    结果分析(以结果第12条为例):

    a、b同时发生的概率是50%。

    a发生,则b发生的概率是71.42857%。

    这样就可以进行智能推荐了。


    举例2:

    trans = as(a,"transactions") #将数据转换成transactions属性
    
    inspect(trans[1:5]) #观察前五行的数据
    
    rules = apriori(trans,parameter = list(support=0.06,confidence = 0.75)) #调用Apriori算法,最小支持度为0.06,最小置信度为0.75
    
    rules #显示rules中关联规则条数
    
    inspect(rules) #观测rules中的关联规则

    输出结果如下:

    结果分析(以结果第2条为例):

    A4、F3~H4的支持度最大,为7.85%,置信度为87.96%。说明当A4、F3的条件满足时,H4的可能性为87.96%,而这种情况发生的可能性为7.85%。

     

    Python实现:

    import pandas as pd 
    from apriori import * 导入自己编写的Apriori函数
    data = pd.read_excel("menu_orders.xls",header=None)
    
    print(u'\n转换原始数据为0-1矩阵')
    ct = lambda x:pd.Series(1,index=x[pd.notnull(x)]) #转换0-1矩阵的过渡函数
    b = map(ct,data.as_matrix()) #用map方式执行
    data = pd.DataFrame(list(b)).fillna(0) #实现矩阵转换,空值用0填充
    print(u'\n转换完毕。')
    del b #删除中间变量b,节省内存
    
    support = 0.2 #最小支持度
    confidence = 0.5 #最小置信度
    ms = '---' #连接符
    find_rule(data,support,confidence,ms).to_excel('1.xls')

    输出结果如下:

    更多相关内容
  • 针对这一情况,提出基于关联规则的数据质量分析与修复方法,通过定义数据项之间的关联规则,建立数据关联模型,自动根据模型检测数据集合是否满足关联关系,判断数据是否符合质量要求;通过指定数据修复策略,对发现...
  • 对其Excel数据进行关联规则分析之前需要对数据进行预处理:将表头去掉,并保存你所需要的数据,导入你所需要分析的Excel地址和‘Sheet1’,所得出的数据,即是你所需要的结果。
  • 基于WEKA数据挖掘中关联规则分析及应用举例.pdf
  • 基于多源数据挖掘及关联规则分析的事故事件等级判定.pdf
  • 主要介绍了关联规则算法、数据挖掘的概念及工具,以及基于关联规则的矿井参数数据挖掘分析。使用R语言挖掘工具,挖掘分析了矿井监测数据温度、瓦斯、CO、风速、湿度、粉尘浓度之间的关联规则,确定了每种因素之间的影响...
  • 基于关联规则数据挖掘算法分析.pdf
  • 人工智能-数据分析-关联规则挖掘在病毒基因数据分析中的应用.pdf
  • 用python进行关联规则挖掘,欢迎大家来和我一起交流心得!
  • 一卡通食堂消费数据的聚类及关联规则分析.pdf
  • 从UCI数据网站中选择成人数据库(adult),数据是从美国人口普查局数据库中提取的。这里选取一年的收入大于50k的成人数据,选取8个...可以运用关联分析找出8个属性变量中,哪些变量有关系,从而提取出一些有用信息。
  • 【目录】 关联规则挖掘 从交易数据库中挖掘一维的布尔形关联规则 从交易数据库中挖掘多层次关联规则 在交易数据库和数据仓库中挖掘多维关联规则 从关联挖掘到相关性分析 基于约束的关联挖掘 小结
  • 数据挖掘中关联规则技术分析.pdf
  • 针对所提供的CatalogCrossSell.xls数据集,要求对该数据及进行关联规则分析,并且解释生成的结果,评价指标包括lift,ratio, confidence, support等,并且最后根据这些结果为Exeter做出合理建议: 2.分析数据集: ...

    代码链接:github代码

    1.任务目标

    针对所提供的CatalogCrossSell.xls数据集,要求对该数据及进行关联规则分析,并且解释生成的结果,评价指标包括lift,ratio, confidence, support等,并且最后根据这些结果为Exeter做出合理建议:

    2.分析数据集:

    给定的数据包含两个sheet,第一个为解释文档,第二个为真实数据集,该数据集包含4998行数据,第一列是用户编号,后面分别为Clothing,
    House wares, Health, Automotive, Personal electronics, Computers, Garden, Novelty gift, Jewelry一共9列,主要利用这些列的数据进行关联规则分析。

    3.数据预处理:

    删除无关解释文档的sheet,删除文件中的空列,由于用户编号实际没有较大用处,在这里删除用户编号,并且为其重新编号0-4997。上述操作均在Python中进行。

    在这里插入图片描述

    4.建立关联规则方法进行分析:

    (调用mlxtend进行数据分析,代码见附件CatalogCrossSell.ipynb,每一步处理后的数据文件见附件)

    1. Apriori 方法:

    设置min_support=0.1, 它指的是关联规则占总的关联规则的最小比例,如果小于的直接忽略。
    最后得到相应的关联规则及其它对应的支持度,共36条(apr_result.csv)。
    在这里插入图片描述
    对于以上给出的规则组合,生成关联规则,原本设置显示置信度大于0.7的关联规则展示如下(apr_con_asso.csv):

    在这里插入图片描述
    一共23条规则结果满足要求,第一列是antecedents,事先购买的产品类型;第二列是consequents,为给出的结果;后面几列为计算得到的相关支持度,置信度,lift等数据,具体计算如下:

    • support(A->C) = support(A+C) [aka ‘support’], range: [0, 1]
    • confidence(A->C) = support(A+C) / support(A), range: [0, 1]
    • lift(A->C) = confidence(A->C) / support©, range: [0, inf]
    • leverage(A->C) = support(A->C) - support(A)*support©, range: [-1, 1]
    • conviction = [1 - support©] / [1 - confidence(A->C)], range: [0, inf]

    如图给出的是置信度大于0.7的结果,可以看到推荐的结果大量集中在‘Health Products Division’,说明给出的数据集中大部分用户都选择了这一款,如果按照这种推荐方法,不论事先购买了哪种产品,都会选择这一类产品,推荐意义不大。
    因此后面我们选择采用lift参数做过滤,设置lift>1.4的规则结果展示出来,有以下结果(apr_lift_asso.csv):

    在这里插入图片描述
    共52条结果,该结果的分布比较均衡,在各种情况下都有相应的推荐。例如对第30条结果规则,如果用户事先购买了’Health Products Division’, ‘Novelty Gift Division’, ‘Personal Electronics Division’,则推荐该用户购买’Housewares Division’,该方法的支持度为0.108,置信度0.638,lift为1.62,推荐的结果较为合理。

    1. FP-growth 方法

    设置min_support=0.1,最后得到相应的关联规则及其它对应的支持度,共36条(fpg_result.csv)。

    在这里插入图片描述
    对于以上给出的规则组合,生成关联规则,原本设置显示置信度大于0.7的关联规则展示如下(fpg_con_asso.csv):

    在这里插入图片描述
    一共23条规则结果满足要求,跟刚才方法结果一样,推荐的结果大量集中在‘Health Products Division’,推荐意义不大。
    后面我们仍然选择采用lift参数做过滤,设置lift>1.4的规则结果展示出来,有以下结果(fpg_lift_asso.csv):
    在这里插入图片描述
    共53条结果,该结果的分布比较均衡,在各种情况下都有相应的推荐。例如对第47条结果规则,如果用户事先购买’Jewelry Division’, ‘Health Products Division’, ‘Personal Electronics Division’,则推荐该用户购买’Housewares Division’,该方法的支持度为0.132,置信度0.669,lift为1.699,推荐的结果较为合理。

    通过两种方法的对比分析,可以看到有一些推荐结果会同时出现,例如Apriori方法的第30条数据和FP-growth方法的第20条数据。其中,相对来说,很难直接判断两种方法的好坏,FP-growth方法的运行速度会高于Apriori方法,但本题数据量不是特别大,差异也不是很明显。由于都是采用关联规则推荐,推荐的结果两者有重叠的部分,也有一些微小的差别,但总体来说,都能够基本符合预期结果,为商家提供有效建议。

    # 代码片段
    import numpy as np
    import pandas as pd
    from mlxtend.frequent_patterns import apriori, fpgrowth
    from mlxtend.frequent_patterns import association_rules
    
    data = pd.read_excel('CatalogCrossSell.xls')
    # data = data.set_index('Customer Number')
    data.drop(columns = 'Customer Number', inplace = True)
    
    apr_result = apriori(data, min_support = 0.1, use_colnames = True)
    

    代码链接:github代码

    如果感觉对你有所帮助,不妨点个赞,关注一波,激励博主持续更新!

    展开全文
  • 关联规则数据分析

    千次阅读 2019-01-13 13:55:59
    最初的动机是针对购物篮分析(Basket Analysis)问题提出的,其目的是为了发现交易数据库中不同商品的关联规则。之后诸多的研究人员对关联规则的挖掘问题进行了大量的研究,主要涉及关联规则的挖掘理论...

    关联规则

    1.关联规则的产生背景

    最早是由Agrawal等人提出的(1993)。最初的动机是针对购物篮分析(Basket Analysis)问题提出的,其目的是为了发现交易数据库中不同商品的关联规则。之后诸多的研究人员对关联规则的挖掘问题进行了大量的研究,主要涉及关联规则的挖掘理论的探索、原有算法的改进和新算法的设计、增量式关联规则的挖掘、并行关联规则的挖掘、模糊关联规则挖掘以及关联规则的应用等问题。

    2. 基本概念与原理

    **1)**关联规则(AR,Association Rule)反映了一种特定的数据之间的关系。用来揭示数据与数据之间未知的相互依赖关系。他的任务就是:给定一个事物数据库T,在基于支持度-置信度框架中,发现数据与项目之间大量有趣的相关联系,生成所有的置信度和可信度分别高于用户给定的最小支持度和最小可信度的关联规则。其算法设计的两个问题:
    (1) 找到所有支持度大于等于最小支持度(min_sup)的项目集(Item Sets),这些项目集称为频繁项目集(Frequent Item Sets)。
    (2) 使用步骤(1)找到的频繁项目集,产生期望的规则。
    **2)**关联规则的评价标准主要是支持度和置信度。支持度和置信度的两个阈值是描述关联规则的两个重要概念。为了方便将最小的支持度阈值记为min_sup,最小的置信度阈值记为min_conf。最小支持度表示项目集在统计意义上的最低重要性。最小置信度表示规则的最低可靠性。
    假设 是由m个不同数据项组成的一个集合。给定一个数据事物集T,其中每一个事物记录t是I的一个非空子集,即 ,每一个事物记录都有与一个唯一的标识符TID(Transaction ID)相对应。
    对于任意一个非空的项集(itemset) ,如果记录t包含X(即 ),则称记录t支持项集X。对于整个数据集T来说,X的支持度定义为包含X的记录在数据集T中所占的比例。即: 在这里插入图片描述
    式中 表示数据集T中包含的X的记录个数,|T|表示T中所有记录的数目。显而易见, 。如果|X|=k(即|X|表示X中数据项的个数),则称X为k-项集。
    若X的支持度大于所给定的最小支持度阈值 ,则称X为频繁集。关联规则是形如 的表达式,其中X、Y是非空项集,且X、Y不相交。关联规则的支持度定义为: 在这里插入图片描述
    其中X为前项,Y为后项。 的置信度为(前项作为分母)
    在这里插入图片描述
    式中 和 分别表示数据集T中 和X记录的个数。其中并集可以简记为XY。
    如果我们所要求的关联规则支持度大于最小支持度,并且置信度大于最小置信度,称作合格关联规则。
    ※一个关联规则,计算支持度的工作主要是计数运算,要求遍历扫描数据集T。
    ※关联规则数目的大小是影响挖掘效率的关键因素。
    查找数据库中所有的频繁项目集和它的支持度是关联规则挖掘研究的重点。
    所以下面介绍基于广度优先搜索策略的关联规则算法——Apriori算法(通过多次迭代找出所有的频繁项目集):访问完一个频繁项目集的时候,访问它的超集。

    Aprioir算法

    是通过项目集元素数目不断增长来逐步完成项目集的发现。
    分为两个阶段:
    迭代所有的频繁项目集,要求频繁项目集的支持度不小于最小支持度(用户设定的)。
    从频繁项目集中构造置信度不低于用户设定的最小置信度的规则。
    即:首先生成1-频繁项目集L1,然后产生2-频繁项目集L2(也就是逐层产生候选集),直到不能再拓展频繁项目集中的
    元素的数目的时候,算法停止。
    其中,根据项目及空间理论:频繁集的子集是频繁集,非频繁项目集的超级不是频繁集。
    证明:设X是一个项目集,事物数据库中支持X的元组数为从s,对X的任意非空子集Y,设T中支持Y的元组数为s1。
    根据频繁项目集的定义:支持X的一定支持Y,所以
    在这里插入图片描述
    同理可以证明非频繁集的超集不是频繁集。
    例如:假设事务数据库为D(如下表),计算min_sup为25% min_cof=100%时的关联规则。
    表1 事物数据库D

    TID项目集
    01ACD
    02BCE
    03ABCE
    04BE

    第一次扫描数据库生成的候选项目集和频繁集如下表
    表2 1-候选项目集

    项目集支持度
    A0.167
    B0.25
    C0.25
    D0.083
    E0.25

    表3 1-频繁项目集

    项目集支持度
    B0.25
    C0.25
    E0.25

    第二次扫描:用第一次扫描生成的一项频繁项目集来生成二项候选集
    表4 2-候选项目集

    项目集支持度
    BC0.167
    BE0.25
    CE0.0167

    表5 2-频繁项目集

    项目集支持度
    BE0.25

    第二次扫描结束之后只有一个项目集无法再生成三项候选集,所以算法结束。
    然后对于二项集计算其置信度,判断关联规则是否合格。
    |BE|

    Rules (左边的是分母)Conf
    Dsupp(BE)/Dsupp(B)1
    Dsupp(BE)/Dsupp(E)1

    由计算得到的置信度我们知道BE关联规则合格。

    用SSAS对医疗数据进行关联分析

    1)Microsoft SQl Server 2008 Analysis Services 的操作步骤

    1. 打开集成环境页面
      依次执行“开始”→“所有程序”→“Microsoft SQL Server 2008”→“SQL Server Business Intelligence Development Studio”命令,打开Analysis Service集成环境界面。

    2. 新建项目
      (1) 执行菜单栏的“文件”→“新建”→“项目”命令,打开如图所示的“新建项目”对话框。(2) 选中“Analysis Services”项目,分别在“名称”、“解决方案名称”文本框中,填写项目名称和解决方案名称;在“位置”下拉文本框中,单击右侧的“浏览”钮,选择解决方案的保存路径。。
      (3) 单击“确定”按钮,返回集成环境的起始界面,在右上角显示“解决方案资源管理器”字样。

    3. 创建数据源

    4. 创建数据源视图

    5. 创建适用于中医的挖掘结构

    6. 部署项目并处理挖掘模型

    7. 模型解释
      规则由生成的挖掘模型得到了116个规则。其中概率大的重要性不一定大。这里产生的项集既有单项集也有多项集。在规则上面的各个控制选项中,我们可以选择最小概率和最低重要性。
      在这里插入图片描述图2 项集
      由图2我们知道产生的项集有362个,支持代表项集的支持度是多少,上面的下拉选项可以控制最低支持度是多少以及最小项集的大小。

    在这里插入图片描述在这里插入图片描述图三 癌细胞无转移情况的关联程度(上)癌细胞有转移情况的关联程度(下)
    由图3我们可以知道在最低支持度为1最小概率为0.42的前提下,和癌细胞无转移情况的有关联的属性由图三(左)中显示红色的属性;和癌细胞有转移情况有关联的属性由图三(右)中显示红色的属性。其中我们还可以看出肾细胞癌分期>=3.25、患者的年龄岁>=60.3173663616、癌细胞分期 -1.2985798036-3.25、患者的年龄岁-52.3197128896-60.3173663616、肾细胞癌组织内微血管数MVC<64.7726790528,这几个属性与癌细胞的转移或者不转移都有联系。

    展开全文
  • 数据分析-关联规则-Apriori

    千次阅读 2022-03-23 11:52:56
    关联规则-apriori 实现

    目录

    关联规则

    衡量标准

    支持度

    置信度

    杠杆率(leverage)

    确信度(conviction)

    提升度

     实现


    美国沃尔玛超市对一年多的原始交易数据进行了详细的分析,得到一个意外发现:与尿布一起被购买最多的商品竟然是啤酒。

    --关联规则在客户关系管理系统中的经典案例

    关联规则

    形如"如果X那么Y(If…Then…)",前者为条件,后者为结果。例如一个顾客,如果买了X,那么他也会购Y。

    衡量标准

    如何来度量一个规则是否够好?主要有两个量,置信度(Confidence)和支持度(Support)。

    支持度

    对于关联规则R:X=>Y,其中X \subset IY \subset I,并且X \cap Y =\phi

     规则R的的支持度(Support)是交易集中同时包含X和Y的交易数与所有交易数之比。

    关联规则的最小支持度也就是衡量频繁集的最小支持度(Minimum Support),记为supmin,它用于衡量规则需要满足的最低重要性。

    置信度

    表示了这条规则有多大程度上值得可信。

    设条件的项的集合为X,结果的集合为Y。置信度计算在X中,同时也含有Y的概率(即:if X ,then Y的概率)。即 Confidence(X=>Y)=P(Y|X)

    关联规则的最小置信度(Minimum Confidence)记为confmin,它表示关联规则需要满足的最低可靠性。

    如果规则R:X=>Y满足support(X=>Y)>supminconfidence(X=>Y)>confmin,称关联规则X=>Y强关联规则,否则称关联规则X=>Y为弱关联规则

    在挖掘关联规则时,产生的关联规则要经过supminconfmin的衡量,筛选出来的强关联规则才能用于指导商家的决策。

    杠杆率(leverage)

    0X和Y独立,越大X和Y的关系越密切。

    确信度(conviction)

    也是用来衡量X和Y的独立性。

    提升度

    引入提升度Lift,以度量此规则是否可用。它描述的是:相对于不用规则,使用规则可以提高多少。

    Lift(X->Y)=Confidence(X->Y)/Support(Y)=p(XY)/p(X)p(Y)

    算法:

    • 找出满足支持度的单个商品
    • 将以上商品两两组合,找出满足支持度的两两组合
    • 依次在以上商品中找到三个,四个....满足条件的组合
    • 在满足条件的组合中找置信度满足条件的规则

     实现

    #定义函数读取购物篮数据
    def read_file_apriori(filename):
        k=[]
        with open(filename) as f:
            for i in f:
                k.append(i.split())
        return k 
    
    data=read_file_apriori("d:/datasets/basket.txt")
    from mlxtend.preprocessing import TransactionEncoder
    from mlxtend.frequent_patterns import apriori
    import pandas as pd
    te = TransactionEncoder()
    #编码
    te_ary = te.fit(data).transform(data)   #类似onehot编码,所有的商品都是特征,购物篮中有的样本对应的特征为True,没买的样本对应的特征值为False
    df = pd.DataFrame(te_ary, columns=te.columns_)
    freq=apriori(df,min_support=0.05, use_colnames=True)  #找出满足最小支持度的商品
    

      TransactionEncoder编码的结果

     满足支持度条件的商品及组合

     找出满足条件的规则

    #导入关联规则包
    from mlxtend.frequent_patterns import association_rules
    #计算关联规则
    result = association_rules(freq, metric="confidence", min_threshold=0.4) #找出满足置信度大于0.4的规则
    
    '''
    supported metrics are 'support', 'confidence', 'lift',
      'leverage', and 'conviction'
    '''

    展开全文
  • 1、关联分析定义:从数据集中找出对象或项集之间同时发生的关联或顺序关系。 应用: 购物篮数据分析关联销售 ​ 目录编排 ​ 促销分析 ​ web日志分析 ​ DNA序列分析(癌症数据分析中,搜索...
  • Python3数据分析与挖掘建模实战-6-20 关联-关联规则-2.mp4
  • Python3数据分析与挖掘建模实战-6-19 关联-关联规则-1.mp4
  • 想必大家都听说过美国沃尔玛连锁超市“啤酒与尿不湿”的故事。...其实,这种通过研究已经产生的数据,将不同标的关联起来并挖掘二者之间联系的分析方法,就叫做关联分析法,也就是商场和电商领域的“购物篮分析”。 .
  • 自己写的数据挖掘 关联规则 Apriori算法 matlab实现 分了许多个文件 结构清晰
  • R语言--数据挖掘3---关联规则分析

    千次阅读 2021-04-15 21:54:51
    文章目录关联规则分析数据介绍基本原理介绍基本概念:Apriori算法有意义的关联规则案例分析总结反思学习其他同学的代码参考代码这其实跟前面排序是等价的查看分析结果inspect函数逐条查看关联规则by="lift"指定按...
  • 关联分析——关联规则应用及案例

    千次阅读 2022-08-10 16:50:06
    关联规则真正结合场景以及案例的知识分享,区别于其他纯理论性的概念介绍,让小伙伴们更深刻的理解。
  • Weka平台实现关联规则挖掘:进一步理解关联规则算法(Apriori算法、FP-tree算法),利用weka实现数据集的挖掘处理,学会调整模型参数,读懂挖掘规则,解释规则的含义
  • 关联规则分析数据挖掘中最活跃的研究方法之一,目的是在一个数据集中找出各项之间的关联关系,而这种关系并没有在数据中直接表示出来。 8.1.1 常用关联规则算法 常用关联算法如所表8 1所示。
  • 数据挖掘之关联规则分析简介

    千次阅读 2019-07-03 21:19:58
    关联分析是指从大量数据中发现项集之间有趣的关联和相关联系。关联分析的一个典型例子是购物篮分析。在大数据时代,关联分析是最常见的数据挖掘任务之一。 概述 关联分析是一种简单、实用的分析技术,是指发现存在...
  • 数据分析--关联规则

    千次阅读 2021-12-09 17:12:48
  • 数据挖掘——关联规则挖掘

    千次阅读 2022-04-14 15:54:57
    数据挖掘之关联规则挖掘 关联规则挖掘(Association Rule Mining)最早是由Agrawal等人提出。最初的动机是解决购物篮分析(Basket Analysis)问题,目的是发现交易数据库(Transaction Database)中不同商品之间的...
  • 数据挖掘】关联规则之灰色关联分析

    万次阅读 多人点赞 2019-01-24 17:52:39
    灰色关联分析法 利用灰色关联分析的九个步骤: 1.根据分析目的确定分析指标体系,收集分析数据。  设n个数据序列形成如下矩阵:   其中m为指标的个数, 2.确定参考数据列 参考数据列应该是一个理想的比较...
  • 数据挖掘之关联规则(Apriori算法)

    万次阅读 多人点赞 2021-02-18 17:12:33
    关联规则想必大家都是听说过 尿布和啤酒的故事; 在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 189,970
精华内容 75,988
热门标签
关键字:

不同数据做关联规则分析