精华内容
下载资源
问答
  • apriori算法实例
    千次阅读
    2021-03-31 21:42:29

    Apriori算法实例

    学习Apriori算法首先要了解几个概念:项集、支持度、置信度、最小支持度、最小置信度、频繁项集。

    支持度:项集A、B同时发生的概率称之为关联规则的支持度。

    置信度:项集A发生的情况下,则项集B发生的概率为关联规则的置信度。

    最小支持度:最小支持度就是人为按照实际意义规定的阈值,表示项集在统计意义上的最低重要性。
    最小置信度:最小置信度也是人为按照实际意义规定的阈值,表示关联规则最低可靠性。
    如果支持度与置信度同时达到最小支持度与最小置信度,则此关联规则为强规则。
    频繁项集:满足最小支持度的所有项集,称作频繁项集。
    (频繁项集性质:1、频繁项集的所有非空子集也为频繁项集;2、若A项集不是频繁项集,则其他项集或事务与A项集的并集也不是频繁项集)

    #Apriori算法
    from numpy import *
    import time
    
    def loadDataSet():
        return [[1,3,4],[2,3,5],[1,2,3,5],[2,5]]
    
    def createC1(dataSet):
        C1 = []
        for transaction in dataSet:
            for item in transaction:
                if not [item] in C1:
                    C1.append([item])
        C1.sort()
        return list(map(frozenset,C1))
    
    def scanD(D,Ck,minSupport):
        ssCnt = {}
        for tid in D:
            for can in Ck:
                if can.issubset(tid):
                    if not can in ssCnt:
                        ssCnt[can] = 1
                    else:
                        ssCnt[can] += 1
        numItems = float(len(D))
        retList = []
        supportData = {}
        for key in ssCnt:
            support = ssCnt[key]/numItems
            if support >= minSupport:
                retList.append(key)
            supportData[key] = support
            print(retList)
        return retList, supportData
    
    def aprioriGen(Lk, k):
        lenLk = len(Lk)
        temp_dict = {}
        for i in range(lenLk):
            for j in range(i+1, lenLk):
                L1 = Lk[i]|Lk[j]
                if len (L1) == k:
                    if not L1 in temp_dict:
                        temp_dict[L1] = 1
        return list(temp_dict)
    def apriori(dataSet,minSupport =0.5):
        C1 = createC1(dataSet)
        D =list(map(set,dataSet))
        L1,supportData = scanD(D,C1,minSupport)
        L=[L1]
        k = 2
        while (len(L[k-2])>0):
            Ck = aprioriGen(L[k-2],k)
            Lk,supk=scanD(D,Ck,minSupport)
            supportData.update(supk)
            L.append(Lk)
            k +=1
        return L,supportData
    
    dataSet = loadDataSet()
    begin_time = time.time()
    L,suppData = apriori(dataSet)
    

    在这里插入图片描述

    更多相关内容
  • Apriori 算法 实例

    2013-12-08 10:47:49
    Apriori 算法 实例 Apriori 进行频繁模式挖掘,可以将数据存放在txt文件中,每行一个事务,每个ITEM之间用、隔开
  • python apriori算法实例

    2018-12-25 14:33:01
    A python apriori algorithm instance for finding frequent item sets for a given data set
  • 人工智能-机器学习-关联规则分析-Apriori算法实例-挖掘电影导演的关联规则
  • 光环大数据 --大数据培训 &人工智能培训 Apriori 算法实例 322 万知乎用户的关注话题关联分析 _光环大数据 用以前爬的知乎用户行为数据 跑了一下 Apriori 算法发现了一些有意思 的关联规则以下是简略的分析过程 数据...
  • Apriori算法实例——产品关联分析

    千次阅读 2022-01-14 17:20:44
    天池中有关产品关联分析的题目,主要应用Apriori算法解决

    天池比赛——产品关联分析

    目录

    天池——Apriori算法产品关联分析

    前言

    一、基础数据处理

    读取数据,查看数据基本情况

    计算频繁项集和关联规则

    总结


    前言

    数据挖掘的入门Apriori算法的练习。

    数据挖掘-Apriori算法这篇文章对这个算法讲的挺好,而且这个算法整体比较简单也容易理解。使用这个算法,我就直接调用efficient_apriori这个包实现了

    这个比赛给了四个csv文件,稍微分析一下,就知道其实只有order这个csv文件是我们需要处理的

    题目要求:使用关联分析(比如Apriori算法) 挖掘订单中的频繁项集及关联规则


    一、基础数据处理

    我们基本只要处理order这个csv文件就好了

    读取数据,查看数据基本情况

    import pandas as pd
    from efficient_apriori import apriori  #apriori
    from pylab import *
    import matplotlib.pyplot as plt
    mpl.rcParams['font.sans-serif'] = ['SimHei']
    # 读取数据
    df_customer = pd.read_csv('customer.csv', encoding='gbk')
    df_date = pd.read_csv('date.csv', encoding='gbk')
    df_order = pd.read_csv('order.csv', encoding='gbk')
    df_product = pd.read_csv('product.csv', encoding='gbk')
    df_order.head()

     查看一下有没有缺陷

    # 无缺省值
    df_order.isnull().sum()
    
    """
    订单日期      0
    年份        0
    订单数量      0
    产品ID      0
    客户ID      0
    交易类型      0
    销售区域ID    0
    销售大区      0
    国家        0
    区域        0
    产品类别      0
    产品型号名称    0
    产品名称      0
    产品成本      0
    利润        0
    单价        0
    销售金额      0
    dtype: int64
    """

    计算频繁项集和关联规则

    而我们如果要找频繁项集及关联规则其实主要分析客户ID,订单日期和产品名称几列就好了。

    我们使用groupby将我们关心的分组即可

    # 整合购买信息
    df_g1 = df_order.groupby(['客户ID', '订单日期'])['产品名称'].unique()
    
    transactions = []
    for value in df_g1:
        transactions.append(list(value))
    print(transactions[0:5])

    得到整合后的信息

    [['软式棒球'], ['垒球', '棒球服', '头盔', '棒球手套'], ['三角网架', '软式棒球'], ['软式棒球'], ['球棒与球棒袋', '软式棒球', '三角网架', '帽子', '棒球服']]

     我们只需要把这个list送入efficient_apriori包中的apriori就可以得到频繁项集和关联规则了,当然还需要我们根据数据集规定一下最小支持度和置信度。

    itemsets, rules = apriori(transactions, min_support=0.035, min_confidence=0.2)

    处理一下结果并做可视化

    itemsets_product = []
    itemsets_number = []
    itemsets_str_product = []
    # 只分析两个以上的商品情况
    for key in itemsets.keys():
        if(key >=2 ):
            for value in itemsets[key]:
                itemsets_product.append(value)
                itemsets_number.append(itemsets[key][value])
            
    #print(itemsets_product)
    for value in itemsets_product:
        itemsets_str_product.append('和'.join(value))

      

     可以得到一些结论,如买头盔大概率会购买棒球手套等结论,可以通过查看rule来看详细信息

    {棒球手套} -> {头盔} (conf: 0.281, supp: 0.100, lift: 1.206, conv: 1.067)
    {头盔} -> {棒球手套} (conf: 0.430, supp: 0.100, lift: 1.206, conv: 1.129)
    {球棒与球棒袋} -> {头盔} (conf: 0.252, supp: 0.044, lift: 1.082, conv: 1.026)
    {头盔} -> {硬式棒球} (conf: 0.210, supp: 0.049, lift: 0.719, conv: 0.896)
    {球棒与球棒袋} -> {硬式棒球} (conf: 0.207, supp: 0.036, lift: 0.708, conv: 0.892)

    其他探索

    除了对产品关联的探索,其实还可以探索国家和购买地区对不同商品的购买情况等,这种简单做个透视表就可以直观的看到效果

    df_country_pivot_table = df_order.pivot_table(index=['产品名称'], columns='国家', values='订单数量',fill_value=0, dropna=True, aggfunc=np.count_nonzero)
    # 查看国家和对应购买物体信息
    df_country_pivot_table.plot.bar()
    plt.title('不同物品在不同国家购买情况')
    plt.show()
    

    总结

    notebook也分享在天池上了notebook链接 

    展开全文
  • weka Apriori算法实例操作详解

    千次阅读 2016-08-29 20:18:01
    weka –Apriori算法 关联规则挖掘实验   一、Apriori算法参数含义 本次共进行了9组实验,使用了weka安装目录data文件夹下的contact-lenses.arff数据。     ToolsàArffViewer,打开contact-...

    weka –Apriori算法 关联规则挖掘实验

     

    一、Apriori算法参数含义

    本次共进行了9组实验,使用了weka安装目录data文件夹下的contact-lenses.arff数据。

     

     

    ToolsàArffViewer打开contact-lenses,可以看到实验数据contact-lenses共有24条记录,5个属性值。具体内容如下:

    weka Apriori算法实例操作详解 - 矫 Jiao - 矫

    结合实验结果阐释下列12个参数的含义

    1.        car 如果设为真,则会挖掘类关联规则而不是全局关联规则。

    2.        classindex 类属性索引。如果设置为-1,最后的属性被当做类属性。

    3.        delta 以此数值为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。

    4.        lowerBoundMinSupport 最小支持度下界。

    5.        metricType 度量类型。设置对规则进行排序的度量依据。可以是:置信度(类关联规则只能用置信度挖掘),提升度(lift),杠杆率(leverage),确信度(conviction)

     Weka中设置了几个类似置信度(confidence)的度量来衡量规则的关联程度,它们分别是:

    a)        Lift  P(A,B)/(P(A)P(B)) Lift=1时表示AB独立。这个数越大(>1),越表明AB存在于一个购物篮中不是偶然现象,有较强的关联度.

    b)        Leverage :P(A,B)-P(A)P(B)

    Leverage=0AB独立,Leverage越大AB的关系越密切

    c)        Conviction:P(A)P(!B)/P(A,!B) !B表示B没有发生) Conviction也是用来衡量AB的独立性。从它和lift的关系(对B取反,代入Lift公式后求倒数)可以看出,这个值越大, AB越关联。

    6.        minMtric 度量的最小值。

    7.        numRules 要发现的规则数。

    8.        outputItemSets 如果设置为真,会在结果中输出项集。

    9.        removeAllMissingCols 移除全部为缺省值的列。

    10.    significanceLevel 重要程度。重要性测试(仅用于置信度)。

    11.    upperBoundMinSupport 最小支持度上界。 从这个值开始迭代减小最小支持度。

    12.    verbose 如果设置为真,则算法会以冗余模式运行。

     

     

    二、实验结果及分析

    1. 以其中一组实验为例做详细分析

    具体参数设置如下


    weka Apriori算法实例操作详解 - 矫 Jiao - 矫
     

    完整的实验结果输出及具体分析

    === Run information ===     // 实验运行信息

     

    Scheme:       weka.associations.Apriori -I -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.5 -S -1.0 -c -1

    Relation:     contact-lenses       //数据的名称 contact-lenses

    Instances:    24         //数据的记录数 24

    Attributes:   5         //属性数目 5以及各属性名称

                  age

                  spectacle-prescrip

                  astigmatism

                  tear-prod-rate

                  contact-lenses

    === Associator model (full training set) ===

    %%%%%%%%%%%%%%%%%%%%%%%%%%%%%

    %  scheme -所选的关联规则挖掘方案: Apriori算法

    %  算法的参数设置:-I -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.5 -S -1.0 -c -1 ;

    %  各参数依次表示:

    %  I - 输出项集,若设为false则该值缺省;

    %  N 10 - 规则数为10;

    %  T 0 – 度量单位选为置信度,(T1-提升度,T2杠杆率,T3确信度);

    %  C 0.9 – 度量的最小值为0.9;

    %  D 0.05 - 递减迭代值为0.05;

    %  U 1.0 - 最小支持度上界为1.0;

    %  M 0.5 - 最小支持度下届设为0.5;

    %  S -1.0 - 重要程度为-1.0;

    %  c -1 - 类索引为-1输出项集设为真

    %  (由于car, removeAllMissingCols, verbose都保持为默认值False,因此在结果的参数设置为缺省,若设为True,则会在结果的参数设置信息中分别表示为A, R,V)

    %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

     

     

    Apriori  // Apriori算法运行结果

    =======

     

    Minimum support: 0.5 (12 instances)  //最小支持度0.5,即最少需要12个实例

    Minimum metric <confidence>: 0.9   //最小度量<置信度>: 0.9

    Number of cycles performed: 10    //进行了10轮搜索

     

    Generated sets of large itemsets:     //生成的频繁项集

     

    Size of set of large itemsets L(1): 7     //频繁1项集:7

     

    Large Itemsets L(1):      //频繁1项集(outputItemSets设为True, 因此下面会具体列出)

    spectacle-prescrip=myope 12

    spectacle-prescrip=hypermetrope 12

    astigmatism=no 12

    astigmatism=yes 12

    tear-prod-rate=reduced 12

    tear-prod-rate=normal 12

    contact-lenses=none 15

    %%%%%%%%%%%%%%%%%%%%%%%%

    上面所示数据界面中,分别点击标签spectacle-prescripastigmatismtear-prod-ratecontact-lenses,该列的值会自动进行分类排序,可以很方便的对上面结果进行。点击age标签,其值按pre-presbiopicpresbiopicyoung分类排序,可以看到各属性值的记录数均为8<12,不满足最小支持度,因此age属性的所有取值都没有列在上面结果中。

    %%%%%%%%%%%%%%%%%%%%%%%%

     

    Size of set of large itemsets L(2): 1    //频繁2项集: 1

     

    Large Itemsets L(2):

    tear-prod-rate=reduced contact-lenses=none 12

    //tear-prod-rate取值为reduced contact-lenses取值为none 的记录数共有12

     

    Best rules found:    //最佳关联规则

     

     1. tear-prod-rate=reduced 12 ==> contact-lenses=none 12    conf:(1)

    // tear-prod-rate取值为reduced可以推出 contact-lenses的取值为none,该关联规则置信度为100%

     

    2.其它实验设置及部分结果展示

    1 实验中,若其它参数保持为默认值,将最小支持度下界设为0.8,则运行结果会显示”No large itemsets and rules found!”,即找不到满足条件的关联规则。

    2 若其它参数保持为默认值,将最小支持度下界设为0.25,上界设为0.8,度量选为置信度,最小值为0.8,则运行结果找到:频繁1项集10个,频繁2项集18个,频繁3项集4个,找到的最佳关联规则为:

    1. tear-prod-rate=reduced 12 ==> contact-lenses=none 12    conf:(1)

     2. spectacle-prescrip=myope tear-prod-rate=reduced 6 ==> contact-lenses=none 6    conf:(1)

     3. spectacle-prescrip=hypermetrope tear-prod-rate=reduced 6 ==> contact-lenses=none 6    conf:(1)

     4. astigmatism=no tear-prod-rate=reduced 6 ==> contact-lenses=none 6    conf:(1)

     5. astigmatism=yes tear-prod-rate=reduced 6 ==> contact-lenses=none 6    conf:(1)

     6. spectacle-prescrip=myope contact-lenses=none 7 ==> tear-prod-rate=reduced 6    conf:(0.86)

     7. astigmatism=no contact-lenses=none 7 ==> tear-prod-rate=reduced 6    conf:(0.86)

     8. contact-lenses=none 15 ==> tear-prod-rate=reduced 12    conf:(0.8)

     

    3 若其它参数保持为默认值,将最小支持度下界设为0.25,上界设为0.8,度量选为提升度(Lift  P(A,B)/(P(A)P(B))),最小值为1.1,则运行结果找到10条最佳关联规则,前3条如下:

    1. tear-prod-rate=reduced 12 ==> spectacle-prescrip=myope contact-lenses=none 6    conf:(0.5) < lift:(1.71)> lev:(0.1) [2] conv:(1.21)

     2. spectacle-prescrip=myope contact-lenses=none 7 ==> tear-prod-rate=reduced 6    conf:(0.86) < lift:(1.71)> lev:(0.1) [2] conv:(1.75)

     3. tear-prod-rate=reduced 12 ==> astigmatism=no contact-lenses=none 6    conf:(0.5) < lift:(1.71)> lev:(0.1) [2] conv:(1.21)

     

    4 若其它参数保持为默认值,将最小支持度下界设为0.25,上界设为0.8,度量选为杠杆率(Leverage:P(A,B)-P(A)P(B),在下面第一条规则中,[4]表示满足lev:(0.19)的实例数目),最小值为0.1,则运行结果找到6条最佳关联规则,前3条如下:

    1. tear-prod-rate=reduced 12 ==> contact-lenses=none 12    conf:(1) lift:(1.6) < lev:(0.19) [4]> conv:(4.5)

    2. contact-lenses=none 15 ==> tear-prod-rate=reduced 12    conf:(0.8) lift:(1.6) < lev:(0.19) [4]> conv:(1.88)

    3. tear-prod-rate=reduced 12 ==> spectacle-prescrip=myope contact-lenses=none 6   

     

    5 若其它参数保持为默认值,将最小支持度下界设为0.25,上界设为0.8,度量选为确信度(Conviction:P(A)P(!B)/P(A,!B)),最小值为1.1,则运行结果找到10条最佳关联规则,前3条如下:

    1. tear-prod-rate=reduced 12 ==> contact-lenses=none 12    conf:(1) lift:(1.6) lev:(0.19) [4] < conv:(4.5)>

    2. spectacle-prescrip=myope tear-prod-rate=reduced 6 ==> contact-lenses=none 6    conf:(1) lift:(1.6) lev:(0.09) [2] < conv:(2.25)>

    3. spectacle-prescrip=hypermetrope tear-prod-rate=reduced 6 ==> contact-lenses=none 6    conf:(1) lift:(1.6) lev:(0.09) [2] < conv:(2.25)>


    来自:

    http://blog.csdn.net/haosijia929/archive/2010/05/16/5596939.aspx

    展开全文
  • 2.Apriori算法原理 2.1Apriori算法在具体实现 时,将关联规则的挖掘过程分解为两个子问题。 1.发现频繁项集 根据用户给定的最小支持度min_sup ,寻找出所有的频繁项集,即满足支持度Support不低于min_ sup的所有项...

    想获取PPT加Q1271370903

    数据挖掘频繁项集挖掘方法

    1.引入

    在这里插入图片描述
    在这里插入图片描述

    1.2关联规则的基本概念

    (1)关联规则挖掘用来发现大量数据中项集之间有趣的关联联系。如果两项或多项属性之间存在关联,那么其中一项的属性就可以依据其他属性值进行预测。
    (2)关联规则挖掘问题两个子问题:
    第一步是找出事务数据库中所有大于等于用户指定的最小支持度的数据项集;
    第二步是利用频繁项集生成所需要的关联规则,根据用户设定的最小置信度进行取舍,最后得到强关联规则。识别或发现所有频繁项目集是关联规则发现算法的核心。
    (3)支持度
    在这里插入图片描述
    (4)置信度
    在这里插入图片描述
    (5)最小支持度和最小置信度
    在这里插入图片描述
    (6)强关联规则
    在这里插入图片描述

    1.3频繁模式分析

    在这里插入图片描述

    1.4项与项集

    数据库中不可分割的最小单位信息称为项(或项目),项的集合称为项集。
    设l={fi,i2,…" ,im}为一个项目集合(Set of ltems,,项集),其中i, i2,…",im称为项(item,项)。
    在超市的交易数据仓库中,每个项j,代表一种商品的编号或名称,为计算方便假设l中的项已按字典序排序。
    若l中项目的个数为k,则集合l称为k-项集。2.事务
    设l={fi,i2… im}是由数据库中所有项目构成的集合,事务数据库T={t,t2…t}是由一系列具有唯一标识的事务组成。每一个事务
    t,(j=1,2,…,n)包含的项集都是l的子集,即t, cl (j=1,2,…n)。
    在超市等交易数据仓库中,t就代表某个顾客一次购买的所有商品编号或商品名称。
    在这里插入图片描述

    2.Apriori算法原理

    2.1Apriori算法在具体实现

    时,将关联规则的挖掘过程分解为两个子问题。
    1.发现频繁项集
    根据用户给定的最小支持度min_sup ,寻找出所有的频繁项集,即满足支持度Support不低于min_ sup的所有项集。由于这些频繁项集之间有可能存在包含关系,因此,我们可以只关心所有的最大频繁项集,即那些不被其它频繁项集所包含的所有频繁项集。
    2.生成关联规则
    根据用户给定的最小置信度min_ conf,在每个最大频繁项集中,寻找置信度Confidence不小于min_ conf的关联规则。

    说明:

    第二个子问题相对容易些,因为它只需要在已经找出的频繁项目集的基础上列出所有可能的关联规则,同时,满足支持度和置信度阈值要求的规则被认为是有趣的关联规则。
    第一个子问题是挖掘关联规则的关键步骤,挖掘关联规则的总体性能由第一个步骤决定,因此,所有挖掘关联规则的算法都是着重于研究第一个子问题。

    2.2主要步骤:

    (1)扫描全部数据,产生候选1-项集的集合C1;
    (2)根据最小支持度,由候选1-项集的集合c1产生频繁1-项集的集合L1;
    (3)对k>1,重复执行步骤(4)、(5)、(6) ;
    (4)由uk,执行连接和剪枝操作,产生候选(k+l)-项集的集合Ck+1;(5)根据最小支持度,由候选(ktl)-项集的集合Ck+1,产生频繁(k+1)-项集的集合Lk+1 ﹔
    (6)若Lk+1≠,则k=k+1,跳往步骤(4);否则,跳往步骤(7);.(7)根据最小置信度,由频繁项集产生强关联规则,结束。接下来还是看个例子。

    2.3Apriori算法存在问题

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    展开全文
  • 1、使用R语言实现Apriori算法完成关联规则挖掘;2、利用超市购物篮Groceries数据进行关联规则分析。 一、利用arules包加载Groceries数据集 二、探索和准备数据 三、训练模型 四、模型评估 五、模型评估...
  • Apriori算法例题

    千次阅读 2021-11-18 21:59:24
    数据挖掘Apriori算法例题,频繁项目集,最大频繁项目集,超集,强关联,生成关联准则
  • 由于数据的属性数量比较多且较多属性值为false。我在使用Apriori算法时,强关联规都是关于false值的。我想得出True的关联规则,请问如何解决呢?谢谢
  • Apriori算法详解及手写案例

    千次阅读 2020-09-07 19:08:33
    在数据挖掘中有一种关联分析算法叫做Apriori算法,大家可能都听说过啤酒尿布的故事,购买尿布的爸爸很可能会再去购买一份啤酒来犒劳自己,在大数据的背景下已经无法使用人工的方法去发现海量商品间的关联性,所以...
  • 关联规则Apriori算法实例

    千次阅读 2019-10-18 11:02:55
    Apriori算法关联规则计算结果Apriori算法 关联规则 以下数据使用关联规则计算 import pandas as pd #import Apriori from apriori import * inputfile ='../menu_orders.xls' outputfile = 'tmp/apriori_rules.xls...
  • R语言Apriori算法实现例子 以西饼屋数据集为例进行分析 代码部分 第一部分 每行解读 setwd("…")#定位根目录 data.frame(table(Breakfast[,2])#创建数据框并对breakfast表的第二列进行统计计算 names(…)<-c(’...
  • 关联规则挖掘-Apriori算法例题分析

    千次阅读 2021-10-12 16:39:33
    Apriori算法主要作用就是找到其事务之间的内在联系 Apriori算法的基本思想是通过对数据的多次扫描来计算项集的支持度,发现所有的频繁项集从而生成关联规则 一: 找频繁项集关键是找到最小支持度或者最小支持计数...
  • 学习数据挖掘工具中,下面使用4种工具来对同一个数据集进行研究。数据描述:下面这些数据是15个同学...我使用Apriori算法期望挖掘出学生选课的关联规则。@relation test_studenti@attribute Arbori_binari_de_cau...
  • 本文主要给大家讲解了Apriori算法的基础知识以及Apriori算法python中的实现过程,以下是所有内容: 1. Apriori算法简介 Apriori算法是挖掘布尔关联规则频繁项集的算法。Apriori算法利用频繁项集性质的先验知识,通过...
  • 学习数据挖掘工具中,下面使用4种工具来对同一个数据集进行研究。数据描述:下面这些数据是15个同学...我使用Apriori算法期望挖掘出学生选课的关联规则。@relation test_studenti@attribute Arbori_binari_de_cau...
  • 用以前爬的知乎用户行为数据,跑了一下Apriori算法,发现了一些有意思的关联规则。以下是简略的分析过程。 数据采集 数据怎么来的?当然不是知乎给的,是爬虫来的。怎么爬的?这篇文章就不说了。 数据处理 之前...
  • 搜索D中4个事务,统计C2中每个侯选项目集的支持度。在第k步,分两个阶段,首先用一函数sc_candidate(候选),通过第(k-1)步中生成的最大项目集Lk-1来生成侯选项目集Ck。关联规则是描述数据库中数据项之间存在的潜在关系的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,439
精华内容 1,375
关键字:

apriori算法实例