精华内容
下载资源
问答
  • 关联规则应用场景实例十则
    万次阅读 多人点赞
    2016-12-14 13:13:33

            本文整理了10个天池、DataCastle、DataFountain等中出现的,可使用关系规则算法处理的问题场景实例。

    1 穿衣搭配推荐

          穿衣搭配是服饰鞋包导购中非常重要的课题,基于搭配专家和达人生成的搭配组合数据,百万级别的商品的文本和图像数据,以及用户的行为数据。期待能从以上行为、文本和图像数据中挖掘穿衣搭配模型,为用户提供个性化、优质的、专业的穿衣搭配方案,预测给定商品的搭配商品集合。

    2 互联网情绪指标和生猪价格的关联关系挖掘和预测

         生猪是畜牧业的第一大产业,其价格波动的社会反响非常敏感。生猪价格变动的主要原因在于受市场供求关系的影响。然而专家和媒体对于生猪市场前景的判断、疫情的报道,是否会对养殖户和消费者的情绪有所影响?情绪上的变化是否会对这些人群的行为产生一定影响,从而影响生猪市场的供求关系?互联网作为网民发声的第一平台,在网民情绪的捕捉上具有天然的优势。本次赛题希望参赛者可以基于海量提供的数据,挖掘出互联网情绪指标与生猪价格之间的关联关系,从而形成基于互联网数据的生猪价格预测模型,挖掘互联网情绪指标与生猪价格之间的关联关系和预测。

    3依据用户轨迹的商户精准营销

          随着用户访问移动互联网的与日俱增,随着移动终端的大力发展,越来越多的用户选择使用移动终端访问网络,根据用户访问网络偏好,也形成了相当丰富的用户网络标签和画像等。如何根据用户的画像对用户进行精准营销成为了很多互联网和非互联网企业的新发展方向。如何利用已有的用户画像对用户进行分类,并针对不同分类进行业务推荐,特别是在用户身处特定的地点、商户,如何根据用户画像进行商户和用户的匹配,并将相应的优惠和广告信息通过不同渠道进行推送。

           希望根据商户位置及分类数据、用户标签画像数据提取用户标签和商户分类的关联关系,然后根据用户在某一段时间内的位置数据,判断用户进入该商户地位范围300米内,则对用户推送符合该用户画像的商户位置和其他优惠信息。

    4地点推荐系统

         随着移动社交网路的兴起,用户的移动数据得到了大量的累积,使得这些移动数据能够基于地点推荐技术帮助人们熟悉周遭环境,提升地点的影响力等。

         希望利用用户的签到记录和地点的位置、类别等信息,为每个用户推荐50个感兴趣的地点。

    5 气象关联分析

         在社会经济生活中,不少行业,如农业、交通业、建筑业、旅游业、销售业、保险业等,无一例外与天气的变化息息相关。随着各行各业对气象信息的需求越来越大,社会各方对气象数据服务的个性化和精细化要求也在不断提升,如何开发气象数据在不同领域的应用,更好的支持大众创业、万众创新,服务民计民生,是气象大数据面临的迫切需求。

         为了更深入地挖掘气象资源的价值,希望基于共计60年的中国地面历史气象数据,推动气象数据与其他各行各业数据的有效结合,寻求气象要素之间、以及气象与其它事物之间的相互关系,让气象数据发挥更多元化的价值。

    6 交通事故成因分析

         随着时代发展,便捷交通对社会产生巨大贡献的同时,各类交通事故也严重地影响了人们生命财产安全和社会经济发展。为了更深入挖掘交通事故的潜在诱因,带动公众关注交通安全,贵阳市交通管理局开放交通事故数据及多维度参考数据,希望通过对事故类型、事故人员、事故车辆、事故天气、驾照信息、驾驶人员犯罪记录数据以及其他和交通事故有关的数据进行深度挖掘,形成交通事故成因分析方案。

    7 基于兴趣的实时新闻推荐

         随着近年来互联网的飞速发展,个性化推荐已成为各大主流网站的一项必不可少服务。提供各类新闻的门户网站是互联网上的传统服务,但是与当今蓬勃发展的电子商务网站相比,新闻的个性化推荐服务水平仍存在较大差距。一个互联网用户可能不会在线购物,但是绝大部分的互联网用户都会在线阅读新闻。因此资讯类网站的用户覆盖面更广,如果能够更好的挖掘用户的潜在兴趣并进行相应的新闻推荐,就能够产生更大的社会和经济价值。初步研究发现,同一个用户浏览的不同新闻的内容之间会存在一定的相似性和关联,物理世界完全不相关的用户也有可能拥有类似的新闻浏览兴趣。此外,用户浏览新闻的兴趣也会随着时间变化,这给推荐系统带来了新的机会和挑战。

         因此,希望通过对带有时间标记的用户浏览行为和新闻文本内容进行分析,挖掘用户的新闻浏览模式和变化规律,设计及时准确的推荐系统预测用户未来可能感兴趣的新闻。

    8 银行金融客户交叉销售分析

           某商业银行试图通过对个人客户购买本银行金融产品的数据进行分析,从而发现交叉销售的机会。

    9 电子商务搭配购买推荐

           电子购物网站使用关联规则中规则进行挖掘,然后设置用户有意要一起购买的捆绑包。也有一些购物网站使用它们设置相应的交叉销售,也就是购买某种商品的顾客会看到相关的另外一种商品的广告。

    10 银行营销方案推荐

            关联规则挖掘技术已经被广泛应用在金融行业企业中,它可以成功预测银行客户需求。一旦获得了这些信息,银行就可以改善自身营销。如各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息,供使用本行ATM机的用户了解。如果数据库中显示,某个高信用限额的客户更换了地址,这个客户很有可能新近购买了一栋更大的住宅,因此会有可能需要更高信用限额,更高端的新信用卡,或者需要一个住房改善贷款,这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候,数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点,同时也可以显示出顾客会对什么产品感兴趣。

    更多相关内容
  • 关联规则Apriori算法例子

    千次阅读 2021-02-25 17:34:50
    ‘面包’): 3} #看一下关联规则 print(rules)#关联规则是置信度和支持度都满足 #这里的意思就是说 {}里面的组合支持度 大于0.5 并且 {}->{} 前面括号对后面括号的置信度等于1(因为设置的置信度最小值是1 本身置信...

    前言

    什么是AI?
    The theory and development of computer systems able to perform tasks normally requiring human intelligence.(–Oxford Dictionary)
    Using data to solve problems.(–cy)

    支持度、置信度、提升度

    1.支持度:是个百分比,指的是某个商品组合出现的次数与总次数之间的比例,支持度越高,代表这个组合出现的频率越大;
    2.置信度:置信度(A→B)是个条件概念。指的是当你购买了商品A,会有多大的概率购买商品B;
    3.提升度:商品A的出现,对商品B的出现概率提升的程度。提升度(A→B)=置信度(A→B)/支持度(B);
    提升度的三种可能:提升度(A→B)>1:代表有提升;提升度(A→B)=1:代表有没有提升,也没有下降;提升度(A→B)<1:代表有下降。

    举例

    有下图这样一组订单:
    在这里插入图片描述

    from efficient_apriori import apriori
    
    # 设置数据集
    transactions = [('牛奶','面包','尿布'),
            ('可乐','面包', '尿布', '啤酒'),
            ('牛奶','尿布', '啤酒', '鸡蛋'),
            ('面包', '牛奶', '尿布', '啤酒'),
            ('面包', '牛奶', '尿布', '可乐')]
    # 挖掘频繁项集和频繁规则
    itemsets, rules = apriori(transactions, min_support=0.5,  min_confidence=1)
    print("频繁项集:\n", itemsets)
    print("关联规则:\n", rules)
    

    频繁项集:
    {1: {(‘牛奶’,): 4, (‘尿布’,): 5, (‘面包’,): 4, (‘啤酒’,): 3}, 2: {(‘尿布’, ‘牛奶’): 4, (‘尿布’, ‘面包’): 4, (‘牛奶’, ‘面包’): 3, (‘啤酒’, ‘尿布’): 3}, 3: {(‘尿布’, ‘牛奶’, ‘面包’): 3}}
    关联规则:
    [{牛奶} -> {尿布}, {面包} -> {尿布}, {啤酒} -> {尿布}, {牛奶, 面包} -> {尿布}]

     #看一下频繁项集
    print(itemsets)
    print(type(itemsets))
    

    {1: {(‘牛奶’,): 4, (‘尿布’,): 5, (‘面包’,): 4, (‘啤酒’,): 3}, 2: {(‘尿布’, ‘牛奶’): 4, (‘尿布’, ‘面包’): 4, (‘牛奶’, ‘面包’): 3, (‘啤酒’, ‘尿布’): 3}, 3: {(‘尿布’, ‘牛奶’, ‘面包’): 3}}
    <class ‘dict’>

    for k,value in itemsets.items():#最前面的数字123代表商品组合数   分别代表123件商品的组合
        print(k,value)#{}括号里面又是():数字,()代表商品组合名称,:后面的数字代表()商品组合出现的次数
        #支持度小于0.5的已经被pass了,因为设置的min_support=0.5
    

    1 {(‘牛奶’,): 4, (‘尿布’,): 5, (‘面包’,): 4, (‘啤酒’,): 3}
    2 {(‘尿布’, ‘牛奶’): 4, (‘尿布’, ‘面包’): 4, (‘牛奶’, ‘面包’): 3, (‘啤酒’, ‘尿布’): 3}
    3 {(‘尿布’, ‘牛奶’, ‘面包’): 3}

    #看一下关联规则
    print(rules)#关联规则是置信度和支持度都满足
    #这里的意思就是说  {}里面的组合支持度 大于0.5    并且 {}->{}  前面括号对后面括号的置信度等于1(因为设置的置信度最小值是1  本身置信度最大值也是1print(type(rules))
    

    [{牛奶} -> {尿布}, {面包} -> {尿布}, {啤酒} -> {尿布}, {牛奶, 面包} -> {尿布}]
    <class ‘list’>

    总结

    (如果您发现我写的有错误,欢迎在评论区批评指正)。

    展开全文
  • 调用apriori进行关联规则分析,具体代码如下,其中数据集选取本博客 “机器学习算法——关联规则” 中的例子,可进行参考,设置最小支持度(min_support)为0.4,最小置信度(min_threshold)为0.1, 最小提升度...
  • 一、关联规则简介 关联规则(Apriori算法),又称为关联分析。其目的是找出,一堆事物中具有关联的事物。 关联规则最经典的案例就是“啤酒与尿布”,沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其...

    一、关联规则简介
    关联规则(Apriori算法),又称为关联分析。其目的是找出,一堆事物中具有关联的事物。
    关联规则最经典的案例就是“啤酒与尿布”,沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。码字不易,喜欢请点赞!!!
    在这里插入图片描述
    一个意外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。

    二、关联规则
    关联规则最重要的就是支持度Support和置信度Confidence。

    1. 支持度的计算方法:
    #下面式中XY表示XY同时发生的次数,N表示总事物数
    support(X->Y) = XY/N
    
    1. 置信度的计算方法:
    confidence(X->Y) = support(X->Y) / support(X)
    <=>
    #XY表示XY同时发生的次数,X表示X发生的次数
    confidence(X->Y) = XY/X
    

    最终找到的规则,要满足支持度和置信度即可。

    三、关联规则使用
    关联规则的使用可以看我下面这篇博客,是一个公司机器学习岗位的笔试题。
    https://blog.csdn.net/Asher117/article/details/87745195

    展开全文
  • 关联分析的一个典型例子是购物篮分析。在大数据时代,关联分析是最常见的数据挖掘任务之一。 概述 关联分析是一种简单、实用的分析技术,是指发现存在于大量数据集中的关联性或相关性,从而描述一个事物中某些属性...
  • 为了得到准确可信任的关联规则,将关联规则的发现归纳为多阶段决策问题,利用动态规划方法对关联...最后给出了一个应用例子,并通过模拟实验将该方法与增量关联规则挖掘进行了比较分析,实验结果证明了该方法的有效性.</p>
  • 关联规则算法

    万次阅读 2014-02-17 11:31:25
    关联规则 编辑 关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。 目录 1简介 ▪ 故事 ▪ 定义 ▪...

    关联规则

    关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS)
    故事 
    在描述有关关联规则的一些细节之前,先来看一个有趣的故事: "尿布与啤酒"的故事。
    在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。 沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用 数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
    按常规思维,尿布与啤酒 风马牛不相及,若不是借助 数据挖掘技术对海量交易数据进行挖掘和分析,沃尔玛是不可能发现数据内在这一有价值的规律的。

    定义

    根据 韩家炜等观点,关联规则定义为:
    假设I是项的集合。给定一个交易数据库D,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的 标识符TID(Transaction ID)对应。关联规则在D中的 支持度(support)是D中事务同时包含X、Y的百分比,即 概率置信度(confidence)是D中事物已经包含X的情况下,包含Y的百分比,即 条件概率。如果满足最小支持度 阈值和最小 置信度阈值。这些阈值是根据挖掘需要人为设定。

    例子

    基本概念表1:关联规则的简单例子
    TID
    网球拍
    网 球
    运动鞋
    羽毛球
    1
    1
    1
    1
    0
    2
    1
    1
    0
    0
    3
    1
    0
    0
    0
    4
    1
    0
    1
    0
    5
    0
    1
    1
    1
    6
    1
    1
    0
    0
    用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则(频繁二项集):网球拍与网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,X^Y=3, D=6,支持度(X^Y)/D=0.5;X=5, 置信度(X^Y)/X=0.6。若给定最小支持度α = 0.5,最小 置信度β = 0.6,认为购买网球拍和购买网球之间存在关联。

    2挖掘过程编辑

    两个阶段

    关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。
    关联规则挖掘的第一阶段必须从 原始资料集合中,找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。一项目组出现的频率称为 支持度(Support),以一个包含A与B两个项目的2-itemset为例,我们可以经由 公式(1)求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则{A,B}称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset),一般表示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止。
    关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(Minimum Confidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。例如:经由高频k-项目组{A,B}所产生的规则AB,其信赖度可经由 公式(2)求得,若信赖度大于等于最小信赖度,则称AB为关联规则。

    案例分析

    就沃尔马案例而言,使用关联规则挖掘技术,对交易资料库中的纪录进行资料挖掘,首先必须要设定最小支持度与最小信赖度两个门槛值,在此假设最小支持度min_support=5% 且最小信赖度min_confidence=70%。因此符合此该超市需求的关联规则将必须同时满足以上两个条件。若经过挖掘过程所找到的关联规则「尿布,啤酒」,满足下列条件,将可接受「尿布,啤酒」的关联规则。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%于此应用范例中的意义为:在所有的交易纪录资料中,至少有5%的交易呈现尿布与啤酒这两项商品被同时购买的交易行为。Confidence(尿布,啤酒)>=70%于此应用范例中的意义为:在所有包含尿布的交易纪录资料中,至少有70%的交易会同时购买啤酒。因此,今后若有某消费者出现购买尿布的行为,超市将可推荐该消费者同时购买啤酒。这个商品推荐的行为则是根据「尿布,啤酒」关联规则,因为就该超市过去的交易纪录而言,支持了“大部份购买尿布的交易,会同时购买啤酒”的消费行为。
    从上面的介绍还可以看出,关联规则挖掘通常比较适用与记录中的指标取 离散值的情况。如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据 离散化(实际上就是将某个 区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘结果。

    分类编辑

    按照不同情况,关联规则可以进行分类如下:
    1.基于规则中处理的变量的类别:
    关联规则处理的变量可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。例如: 性别=“女”=>职业=“秘书” ,是布尔型关联规则;性别=“女”=>avg(收入)=2300,涉及的收入是数值类型,所以是一个数值型关联规则。
    2.基于规则中数据的抽象层次:
    基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。例如:IBM台式机=>Sony打印机,是一个细节数据上的单层关联规则;台式机=>Sony打印机,是一个较高层次和细节层次之间的多层关联规则。
    3.基于规则中涉及到的数据的维数:
    关联规则中的数据,可以分为单维的和多维的。在单维的关联规则中,我们只涉及到数据的一个维,如用户购买的物品;而在多维的关联规则中,要处理的数据将会涉及多个维。换成另一句话,单维关联规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之间的某些关系。例如:啤酒=>尿布,这条规则只涉及到用户的购买的物品; 性别=“女”=>职业=“秘书”,这条规则就涉及到两个字段的信息,是两个维上的一条关联规则。

    4相关算法编辑

    Apriori算法

    Apriori算法:使用候选项集找 频繁项集
    Apriori 算法是一种最有影响的挖掘 布尔关联规则 频繁项集的算法。其核心是基于两阶段频集思想的 递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为 频繁项集,简称频集。
    算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。
    可能产生大量的候选集,以及可能需要重复扫描数据库,是Apriori 算法的两大缺点。

    基于划分的算法

    基于划分的 算法
    Savasere等设计了一个基于划分的算法。这个 算法先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频集,然后把产生的频集合并,用来生成所有可能的频集,最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。该算法是可以高度并行的,可以把每一分块分别分配给某一个处理器生成频集。产生频集的每一个循环结束后,处理器之间进行通信来产生全局的候选k-项集。通常这里的通信过程是算法执行时间的主要瓶颈;而另一方面,每个独立的处理器生成频集的时间也是一个瓶颈。

    FP-树频集算法

    FP-树频集算法
    针对Apriori算法的固有缺陷,J. Han等提出了不产生候选挖掘 频繁项集的方法:FP-树频集算法。采用分而治之的策略,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树( FP-tree),同时依然保留其中的关联信息,随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘。当原始数据量很大的时候,也可以结合划分的方法,使得一个FP-tree可以放入主存中。实验表明, FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。

    5应用编辑

    应用

    关联规则挖掘技术已经被广泛应用在西方金融行业企业中,它可以成功预测银行客户需求。一旦获得了这些信息,银行就可以改善自身营销。银行天天都在开发新的沟通客户的方法。各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息,供使用本行ATM机的用户了解。如果数据库中显示,某个高信用限额的客户更换了地址,这个客户很有可能新近购买了一栋更大的住宅,因此会有可能需要更高信用限额,更高端的新信用卡,或者需要一个住房改善贷款,这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候,数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点,同时也可以显示出顾客会对什么产品感兴趣。
    同时,一些知名的电子商务站点也从强大的关联规则挖掘中的受益。这些电子购物网站使用关联规则中规则进行挖掘,然后设置用户有意要一起购买的捆绑包。也有一些购物网站使用它们设置相应的交叉销售,也就是购买某种商品的顾客会看到相关的另外一种商品的广告。
    但是在我国,“数据海量,信息缺乏”是商业银行在数据大集中之后普遍所面对的尴尬。金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能,却无法发现数据中存在的各种有用的信息,譬如对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。可以说,关联规则挖掘的技术在我国的研究与应用并不是很广泛深入。

    研究

    由于许多应用问题往往比超市购买问题更复杂,大量研究从不同的角度对关联规则做了扩展,将更多的因素集成到关联规则挖掘方法之中,以此丰富关联规则的应用领域,拓宽支持管理决策的范围。如考虑属性之间的类别层次关系,时态关系,多表挖掘等。围绕关联规则的研究主要集中于两个方面,即扩展经典关联规则能够解决问题的范围,改善经典关联规则挖掘算法效率和规则兴趣性。 [1]

    展开全文
  • 文章给出了改进的加权关联规则的定义,包括加权关联规则的支持度、信任度、有意义度及支持界等。设计了一套挖掘加权关联规则的行之有效的算法,并通过例子说明了算法的有效性。
  • Apriori算法存在候选集、频繁集产生效率低,丢失有趣强关联规则等问题,提出一种基于分辨矩阵可以采掘含负属性项强关联规则的改进算法,最后给出一个实际例子实现该算法
  • 关联规则算法总结

    千次阅读 2020-05-01 12:15:27
    关联规则A->B的支持度:1000个顾客购物,100个购买了面包和黄油。则面包->黄油 10% 可信度 关联规则A->B的可信度:1000个顾客购物,200个购买了面包和黄油,140个购买了黄油,则可信度为70%(140/200) ...
  • 走进关联规则 什么是关联规则关联规则的分类 关联规则的基本概念 置信度的局限——错估某个关联规则的重要性 提升度和零事务的关系 先验原则 实际案例 代码实战 频繁项集和支持度 置信度调用 文末资源...
  • 关联规则挖掘和序列模式挖掘的Apriori算法,介绍了关联规则和序列模式的基本概念,Apriori算法的思想和伪代码,挖掘频繁项集的例子
  • 第三章 关联规则挖掘理论和算法;第三章 关联规则挖掘理论和算法;3.1 基本概念与解决方法;支持度与频繁项目集 ;支持度与频繁项目集 ;可信度与关联规则;关联规则挖掘基本过程;第三章 关联规则挖掘理论和算法;项目集格...
  • 关联规则

    千次阅读 2017-11-13 20:15:55
    1. 算法简介关联规则最初提出的动机是针对购物篮分析(Market Basket Analysis)问题提出的。1993年,Agrawal等人在首先提出关联规则概念,同时给出了相应的挖掘算法AIS,但是性能较差。1994年,他们建立了项目集格...
  • 关联规则详解

    2020-12-15 21:11:05
    关联规则 关联规则是 根据已有数据 计算两个 "项目集合"之间的关系 就比如我购买了 =肉= 那么我很有可能再购买 =大蒜= 一样. 但是可能性有多少呢?这就需要通过超市有的购物数据来计算. 计算的方法就称为关联规则的...
  • 关联规则分析

    2019-06-23 16:18:29
    关联规则分析
  • 关联规则——Apriori算法

    千次阅读 2021-12-04 18:04:06
    关联规则——Apriori算法 简介 关联规则分析也成为购物篮分析,最早是为了发现超市销售数据库中不同的商品之间的关联关系。例如一个超市的经理想要更多地了解顾客的购物习惯,比如“哪组商品可能会在一次购物中同时...
  • 机器学习之关联规则简介,详细介绍了关联规则例子和相关定义。
  • 关联规则挖掘发现大量数据中项集之间有趣的关联或相关关系随着大量数据不停...关联规则的一个典型例子是购物篮分析该过程通过发现顾客放入其购物篮中不同商品之间的联系分析顾客的购买习惯通过了解哪些商品频繁地被顾客...
  • 关联规则1:关联规则的应用场景

    千次阅读 2020-08-03 11:33:30
    关联规则,作为十大机器学习算法之一,应用非常广泛。最经典的例子当然是“啤酒”和“尿布” 的故事。 这个故事的背景是什么呢?
  • 导读:本文介绍了关联规则原理及Apriori算法实现购物篮分析,以一个真实案例辅助理解关联分析。背景与需求客户A企业是一家全球知名家具和家居零售商,销售主要包括座椅/沙发系列、办公用品、卧...
  • 数据挖掘之关联规则(Apriori算法)

    万次阅读 多人点赞 2021-02-18 17:12:33
    关联规则想必大家都是听说过 尿布和啤酒的故事; 在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店...
  • 数据挖掘——关联规则挖掘

    千次阅读 2022-04-14 15:54:57
    《数据挖掘》国防科技大学 ...关联规则是描述在一个交易中物品之间同时出现的规律的知识模式,更确切的说,关联规则是通过量化的数字描述物品X的出现对物品Y的出现有多大的影响。 关联分析 association ana
  • 想必大家都听说过美国沃尔玛连锁超市“啤酒与尿不湿”的故事。...其实,这种通过研究已经产生的数据,将不同标的关联起来并挖掘二者之间联系的分析方法,就叫做关联分析法,也就是商场和电商领域的“购物篮分析”。 .
  • 机器学习——关联规则

    千次阅读 2019-08-10 21:49:38
    机器学习——关联规则(一)关联规则原理(二)关联规则代码实现 (一)关联规则原理 在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%~...
  • 关联规则挖掘,先验实现 蒂莫西·阿斯普,凯莱布·卡尔顿 输入格式:python apriori.py [--no-rules] <dataFile> --no-rules 将在不生成规则的情况下运行代码。 输入数据文件必须是稀疏向量格式(请参阅 ./data 不同...
  • 基于关联规则的推荐算法

    万次阅读 2019-01-09 17:15:45
    基于关联规则的推荐是根据历史数据统计不同规则出现的关系,形如:X-&amp;amp;gt;Y,表示X事件发生后,Y事件会有一定概率发生,这个概率是通过历史数据统计而来。 对于一个规则X-&amp;amp;gt;Y,有两个指标...
  • 从购物篮分析到关联规则挖掘 Apriori算法 ​ 随着大量数据不断的收集和存储,许多业界人士对于从他们的数据库中挖掘知识越来越感兴趣。对于商场而言,从大量的商务事务记录中发现有价值的的关联关系,可以为货物摆放...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 169,357
精华内容 67,742
关键字:

关联规则例子

友情链接: 计算器1.rar