精华内容
下载资源
问答
  • [数据挖掘之关联规则实战】关联规则智能推荐算法

    数据说明

    数据参数
    OrderNumber: 客户昵称
    LineNumber:购买顺序,如前三行分别表示同一个客户购买的三样商品
    Model:商品名

    问题描述

    基于购物篮的关联规则智能算法推荐的应用。

    三个基本问题:
    1、以获得最高的营销响应率为目标,该如何推送商品?
    2、以最大化总体销售额为目标,该如何推荐商品
    3、用户并未产生消费,为其推荐某样商品?

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    智能推荐算法有很多种,本文只对关联规则进行实践。

    本文将专注于理解起来最容易且又十分经典常用的基于关联规则的购物篮推荐。商品的关联度分析对于提高商品的活力、挖掘消费者的购买力、促进最大化销售有很大帮助。

    其建模理念为:物品被同时购买的模式反映了客户的需求模式。

    适用场景:无需个性化定制的场景;有销售记录的产品,向老客户推荐;套餐设计与产品摆放。

    购物篮简介

    问:什么是购物篮?主要运用在什么场景?

    答:单个客户一次购买商品的综合称为一个购物篮,即某个客户本次的消费小票。常用场景:超市货架布局:互补品与互斥品;套餐设计。

    问:购物篮的常用算法?

    答:常用算法有

    不考虑购物顺序:关联规则。购物篮分析其实就是一个因果分析。关联规则其实是一个很方便的发现两样商品关系的算法。共同提升的关系表示两者是正相关,可以作为互补品,如豆瓣酱和葱一起卖也才是最棒的。替代品的概念便是我买了这个就不用买另外一个。
    考虑购物顺序:序贯模型。多在电商中使用,比如今天你将这个商品加入了购物车,过几天又将另一个商品加入了购物车,这就有了一个前后顺序。但许多实体商店因为没有实名认证,所以无法记录用户的消费顺序。
    问:求出互补品与互斥品后对布局有什么用?

    答:根据关联规则求出的商品间的关联关系后,可能会发现商品间存在强关联,弱关联与排斥三种关系。每种清醒有各自对应的布局方式。

    强关联:关联度的值需要视实际情况而定,在不同的行业不同的也业态是不同的。强关联的商品彼此陈列在一起会提高双方的销售量。双向关联的商品如果陈列位置允许的话应该相关联陈列,即A产品旁边有B,B产品边上也一定会有A,比如常见的剃须膏与剃须刀,男士发油与定型梳;而对于那些单向关联的商品,只需要被关联的商品陈列在关联商品旁边就行,如大瓶可乐旁边摆纸杯,而纸杯旁边则不摆大瓶可乐,毕竟买大可乐的消费者大概率需要纸杯,而购买纸杯的顾客再购买大可乐的概率不大。
    弱关联:关联度不高的商品,可以尝试摆在一起,然后再分析关联度是否有变化,如果关联度大幅提高,则说明原来的弱关联有可能是陈列的原因造成的。
    排斥关系:指两个产品基本上不会出现在同一张购物小票中,这种商品尽量不要陈列在一起。
    根据购物篮的信息来进行商品关联度的分析不仅仅只有如上三种关系,它们仅代表商品关联度分析的一个方面(可信度)。全面系统的商品关联分析必须有三度的概念,三度包括支持度,可信度和提升度。

    关联规则

    直接根据关联三度所定义的概念去理解会有不少难度,尤其是可信度喝提升度中的“ 谁对谁 ”的问题。其实可以换一种方式来看:

    规则 X 的支持度 = 规则 X 的交易次数 / 交易的总数。理解:支持度表示规则 X 是否普遍。
    规则 X(A→B) 的置信度 = 规则 X 的交易次数/规则X中商品B 的交易次数。理解:置信度是一种条件概率,表示购买了A产品的客户再购买B产品的概率。

    问:仅看支持度和置信度是否靠谱?

    答:看一个案例:食堂卖饭,1000份打饭记录中,买米饭的有800人次,买牛肉的有600人次,两个共同买的有400人次,那么可以得出对于规则(牛肉 - > 米饭)Support=P(牛肉&米饭)= 400/1000=0.40;Confidence=P(米饭|牛肉)=400/600=0.67置信度和支持度都很高,但是给买牛肉的人推荐米饭有意义吗?显然是没有任何意义的。因为无任何条件下用户购买米饭的概率:P(米饭)=800/1000=0.8,都已经大过买了牛肉的前提下再买米饭的概率 0.67,毕竟米饭本来就比牛肉要畅销啊。

    这个案例便引出了提升度的概念:提升度 = 置信度/无条件概率=0.67/0.8。规则 X(A→B) 的提升度为 n 时:向购买了 A 的客户推荐 B 的话,这个客户购买 B 的概率是 TA 自然而然购买 B 的 n × 100% 左右。生活理解:消费者平时较少单独购买桌角防撞海绵,可能偶尔想到或自己小孩碰到的时候才会想起购买,如果我们在桌子(书桌饭桌)的成功下单页面添加桌角防撞海绵的推荐,则很大程度上可以提高防撞海绵的销量。这也符合我们希望通过畅销商品带动相对非畅销商品的宗旨。

    问:除了公式的含义,关联三度(支持度,置信度,提升度)还有什么关联吗?

    答:可以这样理解:

    支持度代表这组关联商品的份额是否够大

    置信度(可信度)代表关联度的强弱

    而提升度则是看该关联规则是否有利用价值和值得推广,用了(客户购买后推荐)比没用(客户自然而然的购买)要提高多少。

    所以 1.0 是提升度的一个分界值,刚才的买饭案例中给买了牛肉的用户推荐米饭的这种骚操作的提升度小于 1 也就不难理解了。另外,高置信度的两个商品(假设达到了 100%,意味着它们总是成双成对的出现),但如果支持度很低(意味着份额低),那它对整体销售提升的帮助也不会大。

    关联规则Python代码

    导入基本包

    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    import seaborn as sns
    %matplotlib inline
    # 各种细节配置如 图像大小、轴标签、刻度、文字大小,图例文字等杂项
    large = 22; med = 16; small = 12
    params = {'axes.titlesize': large,
              'legend.fontsize': med,
              'figure.figsize': (16, 10),
              'axes.labelsize': med,
              'axes.titlesize': med,
              'xtick.labelsize': med,
              'ytick.labelsize': med,
              'figure.titlesize': large}
    plt.rcParams.update(params)
    plt.style.use('seaborn-whitegrid')
    sns.set_style("white")
    plt.rc('font', **{'family': 'Microsoft YaHei, SimHei'})  # 设置中文字体的支持
    # sns.set(font='SimHei')  # 解决Seaborn中文显示问题,但会自动添加背景灰色网格
    
    plt.rcParams['axes.unicode_minus'] = False
    # 解决保存图像是负号'-'显示为方块的问题
    

    数据概览

    #读取文件使用utf-8会出现解码错误,需要更改为gbk解码
    bike=pd.read_csv("C://Python//分享资料3//bike_data.csv",encoding='gbk')
    print(bike.head())
    print(bike.info())
    

    在这里插入图片描述
    在这里插入图片描述
    OrderNumber: 客户昵称
    LineNumber:购买顺序,如前三行分别表示同一个客户购买的三样商品
    Model:商品名

    探索性数据分析EDA

    #查看缺失值
    print(bike.isnull().sum())
    #查看重复值
    print(bike.duplicated().sum())
    

    在这里插入图片描述

    商品种类探索

    model=bike['Model'].nunique()
    modelnames=bike['Model'].unique()
    print("共有"+str(model)+"种商品\n")
    print("商品名分别为:\n")
    #每行显示5个
    for i in range(0,len(modelnames),5):
        print(modelnames[i:i+5])
    

    在这里插入图片描述

    #最畅销的15种商品
    bestseller = bike.groupby('Model')['Model'].count().sort_values(ascending=False).reset_index(name='count')
    bestseller.head(15)
    

    在这里插入图片描述

    top_15 = bestseller.head(15)
    sns.barplot(x='count',y='Model',data=top_15)
    plt.title('最畅销的15种商品')
    plt.grid(True)
    

    在这里插入图片描述

    top_15 = top_15['Model'].tolist()
    print('由销量排名,该自行车店排名前15的畅销单品为:')
    for i in range(0,15,5):
        print(top_15[i:i+5])
    

    在这里插入图片描述

    使用Apriori算法求解关联规则

    from mlxtend.frequent_patterns import apriori as apri
    # 生成购物篮:将同一个客户购买的所有商品放入同一个购物篮
    baskets =bike.groupby('OrderNumber')['Model'].apply(lambda x :x.tolist())
    baskets = list(baskets)
    #导入关联规则算法的包
    from mlxtend.preprocessing import TransactionEncoder
    from mlxtend.frequent_patterns import apriori
    from mlxtend.frequent_patterns import association_rules
    #转换为算法可接受模型(布尔值)
    te = TransactionEncoder()
    baskets_tf = te.fit_transform(baskets)
    df = pd.DataFrame(baskets_tf,columns=te.columns_)
    print(df.head(5))
    

    编码后的数据:
    在这里插入图片描述

    维度是(21255, 37),行表示共有21255个用户,列表示对应用户下商品是否购买,如果购买了则该商品下为true,否则false。当用户量与商品量非常巨大时,矩阵维度也会非常大。

    #设置支持度求频繁项集
    frequent_itemsets = apriori(df,min_support=0.01,use_colnames= True)
    #求关联规则,设置最小置信度为0.15
    rules = association_rules(frequent_itemsets,metric = 'confidence',min_threshold = 0.1)
    #设置最小提升度
    # rules = rules.drop(rules[rules.lift <1.0].index)
    #设置标题索引并打印结果
    rules.rename(columns = {'antecedents':'lhs','consequents':'rhs','support':'sup','confidence':'conf'},inplace = True)
    rules = rules[['lhs','rhs','sup','conf','lift']]
    print(rules)
    

    在这里插入图片描述

    • lhs: 被称为左手规则,通俗理解即用户购买的商品 - 山地车内胎
    • 被称为右手规则,通俗理解即根据用户购买某商品来推荐的另一件商品 - ll山地胎
    • support: 支持度,山地车内胎 和 ll山地胎 同时出现在一张购物小票中的概率
    • confidence: 置信度,购买了 山地车内胎 的前提下,同时购买 ll山地胎 的概率
    • lift:向购买了 山地车内胎 的客户推荐 ll山地胎 的话,这个客户购买 ll山地胎 的概率是这个客户自然而然购买 ll山地胎 的 400% 左右,即高了 300% 多,通俗理解:消费者平时较少单独购买桌角防撞海绵,可能偶尔想到的时候或自己小孩碰到的时候才会想起购买,如果我们在桌子(书桌饭桌)的成功下单页面添加桌角防撞海绵的推荐,则很大程度上可以提高防撞海绵的销量。这也符合我们在探索性数据分析中发现的前 15 名畅销商品后并希望通过畅销商品带动“相对非畅销商品”的宗旨。

    筛选互补品和互斥品

    # 互补品
    # lift 提升度首先要大于1,然后再排序选择自己希望深究的前 n 个
    complementary = rules[rules['lift'] > 1].sort_values(by='lift', ascending=False).head(20)
    
    # 互斥品
    #lift提升都首先要小于1,然后再排序选择自己希望深究的前n个
    exclusive = rules[rules['lift'] < 1].sort_values(by='lift', ascending=True).head(20)
    
    

    ### 根据关联规则结果推荐产品
    需要结合业务需求

    • 获得最大营销响应度?-- 看置信度,越高越好
    • 销售最大化?-- 看提升度,越高越好
    • 用户未产生消费,我们向其推荐商品?

    1、获得最高的营销响应率

    如果一个客户刚刚下单了山地车英骑这个产品,那么在他付费成功页面上最应该推荐什么产品才能获得最高的营销响应率。

    # 使用的是左手规则:lhs(left hand rules),lhs 表示的是购买的产品
     ## 使用 frozenset 来对字典的键进行选择
    purchase_good = rules[rules['lhs'] == frozenset({'山地英骑'})]
    print(purchase_good.sample(3))
    

    在这里插入图片描述

    # 根据置信度排序
    print(purchase_good.sort_values(by='conf', ascending=False))
    # 根据下表,应该首先推荐山地车挡泥板
    

    在这里插入图片描述

    1、获得最大化销售额

    如果一个新客户刚下单了 山地英骑 这个产品,

    如果希望最大化提升总体的销售额,那么在他付费成功的页面上应该推荐什么产品?

    print(purchase_good.sort_values(by='lift', ascending=False))
    # 由下表可知,应该首推 hl 山地车外胎
    

    在这里插入图片描述
    提升度是相对于自然而然购买而言,A对B的提升度为4.0的理解如下

    向购买了A的用户推荐B,则该用户购买B的概率是该用户单独
    (即自然而然的购买)购买B的概率的 400%

    向购买了A的用户推荐B,则该用户购买B的概率比该用户单独
    (即自然而然的购买)购买B的概率 \textbf{高} 300%

    3、用户并未产生消费,我们为其推荐某样商品

    # 如果希望推荐山地英骑自行车,应该如何制定营销策略?
     ## 这里应该选出右手规则,因为直接就是推荐的产品,
     ##没有产生消费,消费了的即买了的才使用左手规则
    purchase_good = rules[rules['rhs'] == frozenset({'山地英骑'})].sort_values('lift')
    # 根据置信度或提升度排序都可以,因为直接根据右手规则选出来的数据框中,
     ## confidence 和 lift 成正比例关系,你高我就高
    print(purchase_good)
    # 所以山地英骑跟山地车水壶架,山地车挡泥板,hl山地外胎一起推荐比较好
    

    在这里插入图片描述

    展开全文
  • 摩天,用友旗下社会化的企业数智化学习认证社区,提供数智营销、智慧医疗、数智金融、智能制造、项目管理等精品课程,数智化人才上摩天!...结合实践案例,学习数据挖掘机器学习算法 课程简介: 课

    摩天,用友旗下社会化的企业数智化学习认证社区,提供数智营销、智慧医疗、数智金融、智能制造、项目管理等精品课程,数智化人才上摩天!https://mot.yonyou.com/

    你将会学到:

    • 智能推荐系统基本原理与相似度计算
    • 电影智能推荐系统案例实践

    适合人群:

    1、对Python大数据分析、数据挖掘以及机器学习感兴趣的学习者 2、有Python基础,对数据建模感兴趣的朋友 3、想要了解机器学习如何在金融科技领域进行应用的同学

    课程目标:

    结合实践案例,学习数据挖掘机器学习算法

    课程简介:

    课程介绍:
    本课程为金融领域下的数据挖掘算法应用系列课程的第九门课。
    本系列课程不仅仅讲解机器学习的模型理论,更重要的是,将大量金融相关案例融合在了其中,每一个算法下,都会有配套的案例帮助你强化理论,拓展思路,提升自己的应用能力。
    这套课程涉及到的一些机器学习的模型与案例都是非常经典的,包括线性回归模型、逻辑回归模型、决策树模型、Adaboost模型、GBDT模型、XGboost模型以及LightGBM模型,以及非监督式学习模型:聚类分群,智能推荐算法,还有关联分析模型。

    课程特点:
    第一:快速入门,深入浅出。我们每个课程中,都包涵了基本数据原理以及简单的代码实践,从而获得一个高效的快速入门。
    第二:注重实战,案例为王。这也是我非常看重的一点,这个机器学习呀,你不能就理论讲理论,一定要结合案例实战,结合工作场景,才能有一个更好的效果。

    为什么要学习这门课程:
    学习这套课程后,你将从中收获满满。
    第一、你将入门并提升Python大数据分析与机器学习的水平。
    第二,你能够提升个人综合能力,快速适应数字化转型的新时代。
    第三,你将会培养数据化的思维,熟悉数据建模思路。
    第四,你将了解机器学习在金融科技等领域的具体应用,掌握基础分析能力。

    课程链接:金融领域下的数据挖掘算法应用:智能推荐算法模型-用友摩天

     

    展开全文
  • 利用亲和性分析进行商品推荐import numpy as npdataset_filename=("affinity_dataset.txt")X=np.loadtxt(dataset_filename)print(X[:5])#面包、牛奶、奶酪、苹果和香蕉#计算数据集中有多少个人买了苹果num_apple_...

    利用亲和性分析进行商品推荐

    import numpy as np

    dataset_filename=("affinity_dataset.txt")

    X=np.loadtxt(dataset_filename)

    print(X[:5])

    #面包、牛奶、奶酪、苹果和香蕉

    #计算数据集中有多少个人买了苹果

    num_apple_purchases=0

    for sample in X:

    if sample[3]==1:

    num_apple_purchases+=1

    print("{0}人购买了苹果".format(num_apple_purchases))

    #计算数据集中有多少个人买了香蕉

    num_banana_purchases=0

    for sample in X:

    if sample[4]==1:

    num_banana_purchases+=1

    print("{0}人购买了香蕉".format(num_banana_purchases))

    #统计数据集中所有有规则的数据,。首先分别为规则应验和规则无效这两种情况创建字典

    #“如果顾客购买了苹果,他们也会买香蕉”就用(3, 4)表示

    from collections import defaultdict #使用默认字典,如果查找键不存在,会返回一个默认值

    valid_rules=defaultdict(int)#有规则应验

    invalid_rules=defaultdict(int)#规则无效

    num_occurances=defaultdict(int)#条件相同的规则数量

    #计算过程需要用循环结构依次对每个个体特征值进行处理,第一个特征为规则的前提条件--顾客购买了某一种商品

    for sample in X:

    for premise in range(4):

    if sample[premise]==0:#如果个体不满足条件,即没有买当前商品,继续

    continue

    num_occurances[premise]+=1

    for conclusion in range(premise,5):

    if premise==conclusion:

    continue

    if sample[conclusion]==1:

    valid_rules[(premise,conclusion)]+=1

    else:

    invalid_rules[(premise,conclusion)]+=1

    #计算支持度

    support=valid_rules

    #计算置信度,遍历每条规则计算

    confidence=defaultdict(float)

    for premise,conclusion in valid_rules.keys():

    rule=(premise,conclusion)

    confidence[rule]=valid_rules[rule]/num_occurances[premise]#用符合每一条规则的数量总数/元组中年第一条商品的数量

    features=['面包','牛奶','奶酪','苹果','香蕉']

    #现在我们已经得到了支持度字典和置信度字典,现在定义函数输出每条规则以及支持度和置信度

    def show(premise,conclusion,support,confidence,features):

    premise_name=features[premise]

    conclusion_name=features[conclusion]

    print('Rule:如果一个人购买了{0}他将也会买{1}'.format(premise_name,conclusion_name))

    print('支持数是{0}'.format(support[(premise,conclusion)]))

    print('置信度是{0:.3f}'.format(confidence[(premise,conclusion)]))

    print('\n\n')

    # print (confidence,type(confidence))

    # print(support,type(support))

    # if __name__=='__main__':

    # prem=1

    # con=3

    # show(prem,con,support,confidence,features)

    #得到所有规则的支持度和置信度之后,为了找出最佳规则,还需要根据支持度和置信度对规则进行排序。

    #要找出支持度最高的规则,首先对支持度字典进行排序,字典的items()函数返回包含字典所有元素的列表,并且使用itemgetter()作为键,对嵌套列表进行排序,

    #itemgetter(1)表示以字典各元素的值(这里指支持度)为依据进行排序,reverse=true表示降序排列

    from operator import itemgetter

    #根据支持度进行排序

    sortd_support=sorted(support.items(),key=itemgetter(1),reverse=True)

    #根据置信度进行排序

    sortd_confidence=sorted(confidence.items(),key=itemgetter(1),reverse=True)

    print(sortd_support)

    #排序完成,输出支持度前五的规则

    for i in range(5):

    print('Role规则#{0}'.format(i+1))

    (premise,conclusion)=sortd_support[i][0]#获取元组值

    show(premise,conclusion,support,confidence,features)

    #输出置信度前五的规则

    # for i in range(5):

    # print('Role规则#{0}'.format(i+1))

    # (premise,conclusion)=sortd_confidence[i][0]#获取元组值

    # show(premise,conclusion,support,confidence,features)

    展开全文
  • 一、应用 1、内容推荐(微信朋友圈广告,短视频) 2、自动驾驶(百度起步较早) 3、人脸识别(无人售卖) 4、资源调度(规划路线,热点图) ...4、随之数据库技术的迅速发展,对于发现数据...三、数据挖掘 1、什么是

    目录

    一、应用

    二、起因

    三、数据挖掘

    1、什么是数据挖掘

    2、数据挖掘的过程

    3、数据挖掘任务的分类

    4、多学科的融合

    5、大数据的发展历程

    6、应用实例


    一、应用

    1、内容推荐(微信朋友圈广告,短视频)

    2、自动驾驶(百度起步较早)

    3、人脸识别(无人售卖)

    4、资源调度(规划路线,热点图)

    二、起因

    1、计算机、互联网发展

    2、传统纸质数据转换为电子数据

    3、数据量急速增长导致的一些问题

    (1)数据过量,难以消化

    (2)数据真假难以辨别

    (3)数据安全难以保证

    (4)数据形式不一致、难以统一处理

    4、随之数据库技术的迅速发展,对于发现数据中存在的关系和规则以此来根据现有数据预测未来1发展趋势。

    三、数据挖掘

    1、什么是数据挖掘

            从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

    数据分析方法与处理大量数据的复杂算法相结合

    广义:数据挖掘是从大量数据中挖掘有趣模式和知识的过程。

    相关名词:从数据库中知识发现(KDD)、知识提取、数据/模式分析、数据考古

    2、数据挖掘的过程

    数据挖掘是一个反复迭代的人机交互处理过程。该过程经历多个步骤,很多决策由用户提供 。

    数据预处理(耗时最久)、数据挖掘和结果的解释评估(三部分)

    3、数据挖掘任务的分类

     描述性挖掘任务:刻画数据的一般特性(聚类、关联)

    预测性挖掘任务:在当前的数据上进行推断,以进行预测(分类、回归或预测)

    4、多学科的融合

    数据挖掘是多学科交叉的产物。

    (1)数据量大(GP到PB要求算法可伸缩、数据无法放入内存)

    (2)维度高(成百上千属性的数据,维度即特征数的增加,计算复杂度迅速提高)

    (3)类复杂(相较于传统,数据挖掘需要应对不同领域的不同类型数据)

    数据科学的数据驱动方法强调从数据中直接发现模式和关系,特别是从大量数据中,通常不需要广泛的领域知识,成功案例为——深度学习。

    数据产生方式的变革促成大数据时代的来临。

    5、大数据的发展历程

     关键技术:分布式存储,分布式处理

    相关工具:RapidMiner、SAS Data Mining、Matlab等

    6、应用实例

    (1)谷歌基于检索词条的数学模型分析来判断传染源位置(相关度达97%)

    (2)Netflix根据用户喜好和操作分析制作《纸牌屋》电影

    (3)Farecast预测当前机票价格

    (4)UPS根据车辆上的传感器进行路线规划以及车辆信息回传

    (5)军情六处(数据挖掘底层技术)依据大数据对于恐怖袭击进行排查和预警(热点图,筛选)

    (6)推荐和协同过滤系统,该系统进行用户个性化推荐,这个问题或者其中一个组成部分可以被视为预测问题,因此可以应用数据挖掘技术。

    展开全文
  • 统计学,数据挖掘,机器学习和人工智能之间的区别及联系 首先,让我们来对这些学科进行大致的了解 ①:统计学 统计学是在资料分析的基础上,自17世纪中叶产生并逐步发展起来的一门学科,它是研究如何测定、收集、...
  • 这里我就简单演示一些最基础在数据挖掘过程中用得最多的几个数据可视化方法,希望可以帮助更多的人。 说明:可视化数据集采用前面民宿预测项目的数据集! 1.对数据集进行缺失值统计: plt.figure(figsize=(10, 10)) ...
  • 它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器...
  • 数据挖掘原理与算法:练习题2 题目: 下表给出了一组有关天气状况和能否进行户外活动的数据。请给出所有包含属性“Play”的频繁项集(最小支持度计数为3) No. Outlook Temperature Humidity Windy Play 1...
  • 作者简介:Treant 人工智能爱好者社区专栏作者博客专栏:https://www.cnblogs.com/en-heng1、引言k-means与...聚类是数据挖掘中一种非常重要的学习流派,指将未标注的样本数据中相似的分为同一类,正所谓“物以类聚...
  • 本文主要分析皆来自其他资料,借用较为权威的总结来对我已经学习的这些经典算法做一个极为精简的概述(根据自身经验有一定修改),另外同时附上机器学习实战中作者对各种算法的评价。另外机器学习实战这本书是本人看...
  • 数据挖掘作为一个跨学科主题,它是用人工智能、机器学习、统计学和数据库交叉的方法在相对较大型的数据集中发现模式的计算过程。其目标是从数据集中提取信息并将其转换成可理解的结构,以进一步分析使用。对其的研究...
  • 公众号后台回复“图书“,了解更多号主新书内容 作者:林骥 来源: 林骥 曾经有一段时间,「数据挖掘」这个概念很火,其中「啤酒与尿布」的故事广为流传。据说,沃尔玛为...
  • 机器学习中常用算法总结
  • 来源:专知 本文多图,建议阅读5分钟这本书奠定了数据分析、模式挖掘、聚类、分类和回归的基础,集中在算法和潜在的代数、几何和概率概念上。...数据挖掘和机器学习的基本算法构成了数据科学的基...
  • 分类模型的评估方法 内容包括常见二分类模型的分类效果评估方法,包括绝对指标、相对指标、通用指标,...回归算法的策略函数多是均值方差最小,分类算法的策略函数比较多样,有纯线性代数层面的均值方差最小,也有纯
  • 第1关:决策树算法思想 任务描述 本关任务:根据本节课所学知识完成本关所设置的选择题。 相关知识 为了完成本关任务,你需要掌握决策树的相关基础知识。 第2关:决策树算法原理 任务描述 本关任务:根据...
  • 数据挖掘中特征筛选方法策略

    热门讨论 2021-08-01 10:05:02
    数据挖掘中我们经常会遇到高维数据,特别是当我们的特征工程做得比较复杂时,这些特征可能会让我们的模型过拟合,或者很多特征是没有意义,对模型的优化起不到作用,反而会降低模型的运行效率和精度,所以我们需要对...
  • 本文是数据挖掘学习课堂笔记的一个补充~ 是一个了解级别的文章 欢迎各位大佬指出不足的地方 文章目录数据挖掘的定义数据挖掘与数据分析的区别数据挖掘的应用场景1.教育领域2.风控领域3.医疗领域数据挖掘存在的问题 ...
  • K-means Clustering Algorithm 中文名也许叫“K均值聚类算法”,是统计学和数据挖掘领域中常用的一种算法。维基百科上是这样介绍的:k-means clustering is a method of cluster analysis which aims to partition n...
  • 【人工智能推荐系统算法

    千次阅读 2021-12-07 19:33:04
    基于人口统计学的推荐机制(Demographic-based Recommendation)是一种最易于实现的推荐方法,它只是简单的根据系统用户的基本信息发现用户的相关程度,然后将相似用户喜爱的其他物品推荐给当前用户 对于没有明确含义...
  • 选择分析所需要的数据对象和属性,以及创建/改变属性,目标是改善数据挖掘分析工作,减少时间,降低成本,提高质量。
  • 数据挖掘任务类型

    2021-09-17 01:18:33
    本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章。引言在大数据时代我们总有许许多的的数据要去挖掘分析。问题描述那么数据挖掘任务有哪些类型呢?我们该如何去判断进而去...
  • 数据挖掘概论(参考书:数据挖掘原理、方法及Python应用实践教程) 1.数据挖掘含义 数据挖掘(data mining)就是利用一系列技术和方法从海量数据中找出隐藏于其中的潜在、有用的新知识的过程。在庞大的数据中找到有...
  • matlab实现数据挖掘

    2021-04-21 22:36:49
    实验一:matlab 实现 apriori 算法源代码一、实验目的通过实验,加深数据挖掘中一个重要方法——关联分析的认识,其经典算法为 apriori 算法, 了解影响 apriori 算法......题目:matlab 实现 Kmeans 聚类算法 姓 名 吴...
  • 数据挖掘KNN算法概述

    2021-01-27 17:26:19
    最简单平凡的分类器也许是那种死记硬背式的分类器,记住所有的训练数据,对于新的数据则直接和训练数据匹配,如果存在相同属性的训练数据,则直接用它的分类来作为新数据的分类。这种方式有一个明显的缺点,那就是很...
  • 一、前 沿数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘的任务是从数据集中发现模式,可以发现的模式有很多种...
  • 题图| 作者为Scott Ullman《斯坦福数据挖掘教程(第3版)》上架之后,这是我们第一次整篇文章介绍这本书。这本书相当受欢迎(前两个版本累计销量超过 5 万册),尤其是受学校青...
  • 数据挖掘概念与分析实验报告编制日期: 2009年11月27日目录TOC \o "1-3" \h \z \u HYPERLINK \l "_Toc247212928" 一、相关名词解释 PAGEREF _Toc247212928 \h 3HYPERLINK \l "_Toc247212929" 1.1数据仓库 PAGEREF _...
  • 数据挖掘的五大流程

    2021-08-07 06:14:51
    1.获取数据 2.数据预处理 数据预处理是从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程 可能面对的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断。也...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 100,180
精华内容 40,072
关键字:

智能推荐数据挖掘算法