精华内容
下载资源
问答
  • 2020-06-23 16:47:45

    客户是企业生存和发展的基石。只有充分了解客户,企业才能制定相应的营销策略,提高转化率并达到客户满意度。

    客户对产品的反应能力可以用来指导公司的销售策略;他们的意见和建议可以为公司改善产品和服务提供支持。分析现有客户不仅可以挖掘更多潜在的销售机会,而且可以改善服务方法,进行客户维护工作并为新客户的开发做准备。

    怎么做客户分析?

    1、首先,您需要收集客户的各种数据,例如客户的交易时间,交易时间,消费金额,购买的主要产品等,这些数据必须真实准确,否则将毫无意义。

    2、分析收集的数据,通常将客户分为有效客户和无效客户。有效客户通常指活跃和不活跃的客户,然后将不活跃的客户进一步细分,因为这种类型的客户最有可能然后转化为活跃的客户。

    3、通过分析获得客户的分类,然后您需要管理客户,建立有效的客户管理系统,进行定期检查,通过客户分析会议,定期会议等讨论客户活动计划,并为客户进行下一次营销。

    4、例如闲置的客户应通过电话与他们联系,进一步召回它,并将其发展成为一个积极有效的客户,从而通过客户获得更大的利润。

    5、除了使用有效无效来分析客户,我们还需要通过客户带来的价值来分析客户,也就是说,那些可以为公司带来丰厚利润的客户是高价值客户,数量虽然少,但是重要性高,这部分通过分析,应该将客户的需求作为公司的重点。提供维护支持的客户。

    6、应当注意,客户分析不是静态的,需要定期分析和维护,因为随着业务的变化和外部环境的变化,客户本身也会发生变化,由于公司的业务调整,当今的关键客户可能不再重要,那么这种情况就需要更新划分客户等级。

    客户分析的内容是什么?

    1、基础资料管理:有关客户最基本的原始资料,包括客户的姓名或名称、地址、电话、所有者、经营管理者、法人代表及他们的个人性格、兴趣、爱好、家庭、学历、年龄、能力、经历背景,与本公司交往的时间、业务种类等。这些资料是客户管理的起点和基础,需要通过销售人员对客户的访问才能收集。

    2、客户特征归纳:主要包括市场区域、销售能力、发展潜力、经营观念、经营方向、经营政策、经营特点等。

    3、业务状况总结:包括销售实绩、市场份额、市场竞争力和市场地位、与竞争者的关系及与本公司的业务关系和合作情况。

    4、交易现状分析:主要包括客户的销售活动现状、存在的问题、公司的战略、未来的展望、公司的形象、声誉、财务状况、信用状况等。

    以上就是亿信华辰小编为大家介绍的关于如何做客户分析以及客户分析的内容有哪些的内容介绍,希望对你有所帮助!

    更多相关内容
  • 作者:番茄酱的汪来源:简书客户信用等级影响因素目标:总结出信贷需求较高人群特征,找到与信用等级相关程度较高的变量。帮助银行决定是否审批通过该客户并对审批通过的客户设定初始信用额度,有利于...

    作者:番茄酱的汪
    来源:简书

    客户信用等级影响因素

    目标:总结出信贷需求较高人群特征,找到与信用等级相关程度较高的变量。帮助银行决定是否审批通过该客户并对审批通过的客户设定初始信用额度,有利于银行降低信贷事前风险

    1. 绘制客户基本特征的脑图,明确需要分析的特征

    注意连续变量分类变量,连续需要进行分箱

    脑图


    2. 分析过程

    (1)找到哪些人更需要使用信用卡(基本特征)

    ① 婚姻情况

    婚姻情况

    发现大部分的持卡人都是未婚为主,所以以90后为主,而离异人群、丧偶人群的信贷需求非常低;此图不能说明婚姻状况是否与信用等级有关。


    ② 年龄分析(连续变量)

    首先先建立年龄的分布图

    年龄分布

    发现是偏态分布与长尾分布,发现信贷需求集中在25岁至34岁之间,年龄超过36岁的信贷需求急剧下降。


    ③ 男女比例

    男女的比例为7比3,发现男性更多需要使用信用卡

    综合制作一张图:

    综合特征

    综合来看,需要使用信用卡的客户主要集中在25岁-31岁的单身的成年男性,其次是18-26岁的单身男性


    (2)深入特征观察

    ① 住房情况

    住房情况

    发现优质客户集中在自购房中,同时租房的人需求量很大。


    ② 学历信息

    学历

    发现高风险客户大多集中在学历较低的人群当中,高中、初中、大专都超过了50%

    ③ 车辆情况

    车辆

    没有车的更需要信贷,而优质客户集中在有车一族


    ④ 职业影响

    国有企业的需求最少,私营企业的需求最大


    ⑤ 职业经济情况

    • 发现优质客户基本集中在有车一族,有保险缴纳,自购房的客户

    • 有车一族,没有保险,租房的这些的需求也很少

    ⑥ 地区因素

    地区分析

    可以发现北上广都是信贷需求比较高的地区,西藏与新疆的偏远地区需求最小


    (3)连续变量观察

    工作年限、年收入

    可以看出不同等级的客户对工作年限并不敏感,信用总评分基本变动不大;但是随着年限增长,优质客户的收入逐渐增加,风险客户基本维持在收入最低端。

    客户消费与信用等级

    通过消费行为的数据来评估客户的消费习惯,从而帮助银行决定是否需要调整客户信用等级与额度。

    绘制脑图,对所有变量进行汇总

    1. 各省市消费日均消费金额条形图

    发现广东、上海的日均消费金额明显高于其他省市,所以经济相对发达的地区对信用卡的需求更高,中西部地区由于办卡业务不普及、满足办卡条件的人群少等客观原因,使用信用卡的客户占比较低。

    通过建立字段:日均消费金额/总额度,制作条形图,发现额度是否合理

    可以发现大部分地区的信用卡额度使用率差别不是很大,西藏的信用卡使用率最低。说明银行已经按照各省市的日均消费水平设定了合适的信用卡额度。

    2. 消费金额与信用等级关系

    (1)日均消费金额与信用等级


    绘制箱线图

    发现A等级客户的日均消费金额分布均匀,且消费水平最高,B,C,D等级客户的金额均值逐渐下降,说明消费水平逐步下降。其中D客户的日均消费金额最高为4012元。日均消费水平代表了客户使用信用卡的活跃程度,对客户的信用评级有决定性的影响。


    (2)单笔最大最小金额与信用等级关系

    发现A等级客户单笔最大金额比较平均集中,且消费额度高于其他等级客户。B,C等级客户存在更多计算值,说明优质客户的消费水平更高,消费行为更加规律。


    (3)消费比例与欺诈

    消费比例

    添加字段:[日均消费金额]*365/[个人收入_连续 (消费历史记录)],作为消费比例;同时将是否欺诈放到用更大的深红色圆圈表示

    发现A等级优质客户的消费比例明显低于其他的等级,超额开支较少,最高比例不超过3,消费行为更加理性,欺诈人数最少;等级越低的客户消费比例逐渐升高,D等级的风险客户超额开支明显,消费能力普遍高于收入水平,欺诈行为的占比最高。

    (4)超额度消费情况

    创建字段,是否超额消费


    发现A等级客户只有5%是超额消费的,其他等级客户的透视都在50%以上


    (5)收入消费关系散点图

    绘制个人收入与日均消费的关系图,添加趋势线

    筛选出不同等级的客户的趋势线

    D等级客户

    A等级客户

    发现A等级客户是最平缓的,而D等级客户是最陡峭的,说明D等级客户的收入不高,但是消费的金额二却很高,超值严重。

    客户拖欠情况对信用等级的影响

    这部分的数据主要包括:逾期天数和逾期金额。这部分数据只有300条,所以比较少。


    1. 逾期金额与逾期天数

    可以发现A等级客户的拖欠金额比较高,这是因为额度本身就比较高,同时随着逾期天数的增加,逾期总金额也逐渐增加

    其他客户的逾期天数与拖欠金额相关系数较低,随着不同等级客户的额度下降,拖欠金额下降。

    2. 拖欠比例与消费比例

    发现A等级客户和B等级客户的消费比例较低,处于横坐标的前半部分,同时拖欠的金额在银行设置的额度以内;D等级风险客户的消费比例较高,经常超额消费,但拖欠比例较低。

    C等级客户有一部分群体的拖欠比例最高,超出银行设置的额度。

    3. 与欺诈的关系

    欺诈的关系

    欺诈客户标识叉叉,发现C等级客户拖欠比例大于·的那一部分群体全是欺诈;D等级客户的欺诈现象普遍。

    欺诈客户特征分析

    1. 欺诈与基本特征

    发现诈骗主要集中于租房无车的人群,最高的标签为:租房、无车、私营企业。

    由于本科生本身就申请的人数更多,那么欺诈的行为的人数相对更多;其次是高中、大专、初中及以下,研究生的欺诈行为最小。

    私有企业的欺诈人数最多。


    2. 欺诈与年龄、收入(连续变量)

    (1)年龄与收入大致

    首先对年龄和收入分组,分为高收入、中等收入、低收入;老年人、中年人、青年人

    发现中等收入人群欺诈现象较多,且年龄越小的人群欺诈现象越严重。

    由于低收入人群的信用等级普遍较低,所以,银行设置了较低的信用额度且有风险防控意识,所以目前低收入人群存在欺诈的比例较低。


    (2)收入、年龄细分

    深入再次细分收入


    可以看出,欺诈行为主要集中在10-30万,40-50万,100-1000万的收入人群中;集中在35岁以下的人群当中。

    可以从一份超市数据集中分析出啥?

    10大Python数据可视化库!

    后台回复“入群”即可加入小z数据干货交流群
    
    展开全文
  • 电信客户流失数据分析

    千次阅读 2020-08-21 14:24:32
    这里写自定义目录标题电信客户流失数据分析研究背景提出问题数据集描述特征工程1、数据预处理1.1、特征类型处理1.2、缺失值处理1.3、异常值处理1.4、分类变量标签整理2、特征选择2.1、方差过滤2.2、卡方检验过滤2.3...

    研究背景

    用户流失率的下降能够提高公司利润,了解用户倾向有利于提高用户黏性,延长用户生命周期。面对如今高昂的获客成本,也可以相对地降低营销投入,做到精准营销。

    提出问题

    1、流失客户有哪些显著性特征?
    2、尝试找到合适的模型预测流失用户
    3、针对性给出增加用户黏性、预防流失的建议

    数据集描述

    数据集来自DataFountain,该数据集有21个变量,7043个数据点,每条记录包含了唯一客户的特征。
    用户属性
    customerID :用户ID。
    gender:性别。(Female & Male)
    SeniorCitizen :老年人 (1表示是,0表示不是)
    Partner :是否有配偶 (Yes or No)
    Dependents :是否有家属 (Yes or No)
    tenure :客户存留时长(0-72个月)
    服务需求
    PhoneService :是否开通电话服务业务 (Yes or No)
    MultipleLines:是否开通了多线业务(Yes 、No or No phoneservice 三种)
    InternetService:是否开通互联网服务 (No, DSL数字网络,fiber optic光纤网络 三种)
    OnlineSecurity:是否开通网络安全服务(Yes,No,No internetserive 三种)
    OnlineBackup:是否开通在线备份业务(Yes,No,No internetserive 三种)
    DeviceProtection:是否开通了设备保护业务(Yes,No,No internetserive 三种)
    TechSupport:是否开通了技术支持服务(Yes,No,No internetserive 三种)
    StreamingTV:是否开通网络电视(Yes,No,No internetserive 三种)
    StreamingMovies:是否开通网络电影(Yes,No,No internetserive 三种)
    交易倾向
    Contract:签订合同方式 (按月,一年,两年)
    PaperlessBilling:是否开通电子账单(Yes or No)
    PaymentMethod:付款方式(bank transfer,credit card,electronic check,mailed check)
    MonthlyCharges:月费用
    TotalCharges:总费用
    研究对象
    Churn:该用户是否流失(Yes or No)

    #导入数据集
    options(scipen = 200)
    df <- read.csv("F:/telco-customer-churn/WA_Fn-UseC_-Telco-Customer-Churn.csv")`
    

    特征工程

    1、数据预处理

    1.1、特征类型处理

    #SeniorCitizen转换为因子变量
    df <- within(df,{
      SeniorCitizen <- factor(SeniorCitizen,levels = c(0,1),labels = c("No","Yes"))
    })
    

    1.2、缺失值处理

    colSums(is.na(df))
    mean(is.na(df$TotalCharges))
    library(VIM)
    opar <- par(no.readonly = T)
    par(cex=0.72,font.axis=3)
    aggr(df,prop=T,numbers=T)
    par(opar)
    #只有TotalCharges列有11个缺失值,占比大约0.156%
    

    各列缺失值数量和缺失值占比在这里插入图片描述

    hist(df$TotalCharges,breaks = 50,prob=T,main = "histogram of TotalCharges")
    df$TotalCharges[is.na(df$TotalCharges)] <- median(df$TotalCharges,na.rm = T)
    

    在这里插入图片描述
    TotalCharges是数值型数据,从直方图可以看到该列数据是偏态分布。根据正态分布选均值、中位数填充,偏态分布选中位数填充的原则,我选择用TotalCharges列的中位数去填充这11个缺失值。

    1.3、异常值处理

    layout(matrix(c(1,2),1,2,byrow = T))
    boxplot(df$MonthlyCharges,xlab="MonthlyCharges")
    boxplot(df$TotalCharges,xlab="TotalCharges")
    

    在这里插入图片描述
    通过箱线图可以看到MonthlyCharges、TotalCharges两个特征无极端异常值,但总费用量纲差异大,对特征进行分箱离散化处理

    library(Hmisc)
    describe(df[c("MonthlyCharges","TotalCharges")])
    #根据描述性统计量将变量按0.25,0.5,0.75分位数分成4份
    c_u_t <- function(x,n=1) {
      result <- quantile(x,probs = seq(0,1,1/n))
      result[1] <- result[1]-0.001
      return(result)
    }
    df <- transform(df,
                    MonthlyCharges_c = cut(df$MonthlyCharges,
                             breaks = c_u_t(df$MonthlyCharges,n=4),labels = c(1,2,3,4)),
                    TotalCharges_c = cut(df$TotalCharges,
                         breaks = c_u_t(df$TotalCharges,n=4),labels = c(1,2,3,4)))
    df <- within(df, {
      MonthlyCharges_c <- relevel(MonthlyCharges_c, ref = 1)
      TotalCharges_c <- relevel(TotalCharges_c, ref = 1)
    })
    

    1.4、分类变量标签整理

    for (i in 10:15) {
      print(prop.table(xtabs(~Churn+get(names(df)[i]),data = df)))
    }
    

    在这里插入图片描述
    通过OnlineSecurity、OnlineBackup、DeviceProtection、TechSupport、StreamingTV、StreamingMovies这6个变量分别和Churn生成二维列连表可以看到,"No internet service"这个标签的总数占比都是一致的,可以认为这个标签不影响流失率,所以把这个标签并入“No"标签

    df <- within(df,{
      levels(OnlineSecurity)[2] <- "No"
      levels(OnlineBackup)[2] <- "No"
      levels(DeviceProtection)[2] <- "No"
      levels(TechSupport)[2] <- "No"
      levels(StreamingTV)[2] <- "No"
      levels(StreamingMovies)[2] <- "No"
    })
    

    2、特征选择

    2.1、方差过滤

    df <- df[c(1,6,2:5,7,10:15,17,22,23,8,9,16,18,21,19,20)]  #变量位置重排
    library(caret)
    nearZeroVar(df[c(3:14)],freqCut = 90/10,saveMetrics = T)
    df$PhoneService <- NULL
    

    在这里插入图片描述
    对二分类变量进行方差过滤,变量PhoneService的nzv为TRUE即方差接近于零,代表这个变量中其中一类非常少,占比少于10%,则它变异程度小,提供的信息少,应该被筛选掉。

    2.2、卡方检验过滤

    sapply(df[c(3:19)], function(x){
      ch <- chisq.test(x,df$Churn,simulate.p.value = T)
      list(chi_v=ch$statistic,p=ch$p.value)
    })
    df$gender <- NULL
    

    在这里插入图片描述
    分类变量和目标变量Churn的卡方检验中,除了gender的P值为0.494,其他特征的P值都远小于0.01,所以不能拒绝gender和Churn相互独立的原假设,应被筛选掉。

    2.3、模型整体效果过滤

    (mydata <- df[c(2:19)])
    lg <- glm(Churn~.,family = binomial(),data = mydata)
    lg_back <- step(lg,direction = "backward")
    summary(lg_back)
    anova(lg_back,lg,test = "Chisq")
    

    在这里插入图片描述
    通过AIC向后法筛选出的特征筛除掉了Partner、DeviceProtection、MonthlyCharges_c三个变量。用anova函数对两个模型进行卡方检验P=0.99,表明两个模型拟合度一样好,有理相信这三个变量不会显著提高方程的预测精度。暂时先不删除这些变量,稍后再详细分析Logistic回归。

    2.4、利用随机森林进行特征重要性筛选

    library(randomForest)
    set.seed(123)
    (rf <- randomForest(Churn~.,data=mydata,importance=T,ntree=100))
    (imp <- importance(rf,type=2))
    imp[order(-imp),]
    

    在这里插入图片描述
    随机森林模型显示出tenure、Contract、PaymentMethod这三个特征重要性最高,Dependents、StreamingTV、StreamingMovies这三个特征重要性最低。这些低重要性特征暂时还是保留。

    相关回归分析

    1、二联列联表的相关性度量

    attach(df)
    library(vcd)
    for (i in 3:18) {
     print(assocstats(table(get(names(df)[i]),Churn))) 
    }
    

    在这里插入图片描述
    分别度量了每个分类特征与目标变量Churn的相关性强弱,Contract、InternetService、PaymentMethod与目标变量Churn的相关性较强。由于其他变量也通过了卡方检验,所以和Churn也有相关性,只是弱于这三个变量。

    2、连续型变量的差异检验

    #由于三个连续型变量都是偏态分布,所以用非参数检验
    by(tenure,Churn,median)
    wilcox.test(tenure~Churn,data=df)
    
    by(MonthlyCharges,Churn,median)
    wilcox.test(MonthlyCharges~Churn,data=df)
    
    by(TotalCharges,Churn,median)
    wilcox.test(TotalCharges~Churn,data=df)
    
    library(ggplot2)
    ggplot(df,aes(x=tenure,fill=Churn))+
      geom_bar(position = "dodge")+
      labs(title = "Churn BY tenure")
    

    在这里插入图片描述
    在这里插入图片描述
    这三个连续变量wilcox非参数检验P值都远小于0.01,所以认为流失和非流失的用户在这三个变量间都有差异。tenure这个变量,非流失用户存留时长的中位数为38个月,流失用户的存留时长为10个月,通过图形也可以看出前几个月尤其前6个月的流失率较高。

    3、多重对应分析

    library(plyr)
    df1 <- rename(df,c(SeniorCitizen="SC",Partner="P",Dependents="D",
                       OnlineSecurity="OS",OnlineBackup="OB",DeviceProtection="DP",
                       TechSupport="TS",StreamingTV="ST",StreamingMovies="SMo",
                       PaperlessBilling="PB",MonthlyCharges_c="MC",TotalCharges_c="TC",
                       MultipleLines="ML",InternetService="IS",Contract="Ctr",
                           PaymentMethod="PM")) #对变量进行重命名,使类别图更清晰
    library(ade4)
    mca <- dudi.acm(df1[3:19],scann = FALSE, nf = 2)
    co <- mca$co
    library(ggplot2)
    library(ggrepel)
    windows()
    ggplot(data=co,aes(x=Comp1,y=Comp2))+geom_point(shape=21,size=2.2,color="red")+
      theme(panel.background = element_rect(fill ="white",colour = "black"))+
      geom_vline(xintercept = 0, color = "gray", size = 0.5)+
      geom_hline(yintercept = 0, color = "gray", size = 0.5)+
      geom_text_repel(aes(Comp1,Comp2, label=rownames(co)),box.padding = unit(0.5,'lines'))+
      labs(x = "MCA1: 63.7%", y = "MCA2: 16.4%")  
    

    在这里插入图片描述
    用多重对应分析对各变量进行降维,降维信息浓缩后,相同方位距离近的特征可能有关联:
    ①、先看距离原点较远的聚集点:月费用最低等级(MC.1)和没有开通互联网服务(IS.No)相近有关联,确实符合实际情况逻辑;开通在线备份业务(OB.Yes)、开通设备保护业务(DP.Yes)、开通技术支持服务(TS.Yes)、开通网络安全服务(OS.Yes)相近,说明有一类客户很重视通信安全和通信数据保存,这类用户可能是商务用途,可以做一个商务组合套餐。
    ②、再看距离特别近的团簇:没有开通网络电视(ST.No)、没有开通网络电影(SMo.No)、第二等级总费用(TC.2)、没有开通多线业务(ML.No)相近,此类客户可能只开通了基础的功能。
    ③、接着看离Churn较近的点:银行自动转账付款方式(PM.Bank.transfer…automatic)、信用卡自动转账付款方式(PM.Credit.card…automatic)、有配偶(P.Yes)、按一年签订合同(Crt.One.year)、开通数字网络(IS.DSL)、有家属(D.Yes)和用户没有流失(Churn.No)相近,说明有这类特征的客户黏性高,较稳定,需要继续做好这类客户的维护和开发。
    ④、最后流失用户(Churn.Yes)周围没有很相近的点,而相对较近的特征有按月签订合同(Crt.Month.to.monthr)、电子支票付款方式(PM.Electronic.check)、老年人(SC.Yes),这类客户有流失的风险,可以出针对性的活动方案,提高这类客户的黏性。

    4、Logistic回归分析

    fit.full <- glm(Churn~.,data = mydata,family = binomial())
    summary(fit.full)
    fit.both <- step(fit.full,direction = "both")
    summary(fit.both)
    anova(fit.both,fit.full,test = "Chisq")
    

    数据集的自变量数目较多,为了使建立的Logistic回归模型比较稳定和便于解释,应尽可能地将回归效果不显著的自变量排除在外。用逐步法筛选变量后的模型和前面模型整体过滤时用的向后法结果是一样的

    coefficients(fit.both)
    exp(coef(fit.both))
    

    在这里插入图片描述
    用筛选后的变量建立逻辑回归模型。系统输出的是Churn=Yes时的概率模型,结果中Exp在0.5~1.5之间的弱影响因素暂时忽略。可以看到保持其他变量不变:
    ①、开通光纤互联网服务的客户流失风险是数字网络互联网服务的2.6倍,没有开通互联网服务的流失风险是数字网络互联网服务的0.3倍,所以没有开通互联网服务的客户流失风险最低。
    ②、按一年签订合同的客户流失风险是按月签订合同的0.4倍,按两年签订合同的客户流失风险是按月签订合同的0.2倍,所以签订合同的期限越长,客户流失的概率越小。
    ③、总费用第2等级的客户流失风险是第一等级(18.8,402] 的0.49倍,第三等级是第一等级的0.44倍,第四等级是第一等级的0.49倍,说明总费用第一等级,流失风险最大。

    小结:

    1. tenure前6个月是高流失区域,后面月份的用户流失逐渐减少。
    2. Contract签订合同方式对用户留存影响较大,流失风险按月签订>按一年签订>按两年签订,签订合同的期限越长,客户流失的概率越小。
    3. TotalCharges_c总费用等级高的用户是稳定的,花费较低的用户容易流失。
    4. PaymentMethod付款方式方面,电子支票付款方式流失率较高,自动化付款方式流失率低。
    5. InternetService网络服务对用户留存也影响较大,流失风险光纤互联网服务>数字网络服务>没有开通互联网。
    6. 一类客户倾向于开通在线备份业务、设备保护业务、技术支持服务、网络安全服务这些相关的安全服务

    分类与模型预测有效性

    set.seed(123)
    #建立训练集和测试集,用来建立模型和评估模型的有效性
    train <- sample(nrow(mydata),0.7*nrow(mydata))
    mydata.train <- mydata[train,]
    mydata.test <- mydata[-train,]
    table(mydata.train$Churn)
    table(mydata.test$Churn)
    #逻辑回归混淆矩阵
    prob <- predict(fit.both,mydata.test,type="response")
    logit.pred <- factor(prob>0.5,levels = c(FALSE,TRUE),labels = c("No","Yes"))
    logit.perf <- table(mydata.test$Churn,logit.pred)
    

    这分别是训练集和测试集的Churn分类,还有逻辑回归模型的混淆矩阵
    在这里插入图片描述
    在这里插入图片描述

    1、决策树和随机森林

    library(rpart)
    set.seed(123)
    dtree <- rpart(Churn~.,data = mydata.train,method = "class",
                   parms = list(split="information"))
    dtree$cptable
    plotcp(dtree)
    #按3次分割对应的复杂度参数0.01剪枝
    dtree.pruned <- prune(dtree,cp=0.01)
    
    library(partykit)
    plot(as.party(dtree.pruned),main="Decision Tree")
    dtree.pred <- predict(dtree.pruned,mydata.test,type="class")
    dtree.perf <- table(mydata.test$Churn,dtree.pred)
    

    在这里插入图片描述
    决策树的用纯度最大化法进行的变量重要性排序依次是:Contract、InternetService、tenure,按一年两年签订合同的客户稳定性更强;开通数字网络和没有开通网络服务的客户稳定性更强,存留时长大于13.5个月的客户稳定性更强。综合起来就是按月签订合同、开通光纤网络服务,存留时长小于13.5个月的客户容易流失

    #生成100棵决策树的随机森林
    fit.forest <- randomForest::randomForest(Churn~.,data = mydata.train,ntree=100)
    forest.pred <- predict(rf,mydata.test)
    (forest.perf <- table(mydata.test$Churn,forest.pred))
    

    在这里插入图片描述
    随机森林属于黑箱操作,无法做到和单一决策树一样的可解释性。

    2、支持向量机

    library(e1071)
    set.seed(123)
    fit.svm <- svm(Churn~.,data=mydata.train)
    fit.svm
    svm.pred <- predict(fit.svm,mydata.test)
    (svm.perf <- table(mydata.test$Churn,svm.pred))
    

    在这里插入图片描述
    同样缺乏可解释性,而且准确率较低

    3、模型预测有效性

    #定义分类器性能标准
    performance <- function(table,n=2) {
      if(!all(dim(table)==c(2,2)))
        stop("Must be a 2 x 2 table")
      tn = table[1,1]
      fp = table[1,2]
      fn = table[2,1]
      tp = table[2,2]
      sensitivity = tp/(tp+fn)
      specificity = tn/(tn+fp)
      ppp = tp/(tp+fp)
      npp = tn/(tn+fn)
      hitrate = (tn+tp)/(tn+fp+fn+tp)
      result <- cat(" Sensitivity =",round(sensitivity,n),
                      "\n","Specificity =",round(specificity,n),
                      "\n","Positive Predictive Value =",round(ppp,n),
                      "\n","Negative Predictive Value =",round(npp,n),
                    "\n","Accuracy=",round(hitrate,n),"\n")
      }
    performance(logit.perf)
    performance(dtree.perf)
    performance(forest.perf)
    performance(svm.perf)
    

    在这里插入图片描述
    这几个分类器的准确率都达到80%以上,但由于测试样本中流失率只有24%,所以是就算只有截距的机械模型,准确率也高达76%。从流失判断这个角度来说Sensitivity敏感度(即成功鉴别流失样本的概率)这一指标格外重要,逻辑回归这一指标数值稍高,达到54%,说明有54%的流失客户被判别出来了。

    总结与建议

    在这里插入图片描述

    1. 用户方面:针对老年用户、无亲属、无伴侣用户的特征推出定制服务如老年朋友套餐、温暖套餐等。鼓励用户加强关联,推出各种亲子套餐、情侣套餐等,满足客户的多样化需求。针对新注册用户,推送半年优惠如赠送消费券,以度过用户流失高峰期。
    2. 服务方面:针对光纤用户可以推出光纤和通讯组合套餐,对于连续开通半年以上的用户给与优惠减免。开通网络电视、电影的用户容易流失,需要研究这些用户的流失原因,是服务体验如观影流畅度清晰度等不好还是资源如片源等过少,再针对性的解决问题。针对在线安全、在线备份、设备保护、技术支持等增值服务,应重点对用户进行推广介绍,如首月/半年免费体验,使客户习惯并受益于这些服务
    3. 交易倾向方面:针对单月合同用户,建议推出年合同付费折扣活动,将月合同用户转化为年合同用户,提高用户存留时长,以减少用户流失。 针对采用电子支票支付用户,建议定向推送其它支付方式的优惠券,引导用户改变支付方式。对于开通电子账单的客户,可以在电子账单上增加等级积分等显示,等级升高可以免费享受增值服务,积分可以兑换某些日用商品。
    展开全文
  • 数据挖掘 | 航空公司客户价值分析

    千次阅读 2020-06-18 11:30:23
    研究生期间读了一些关于客户生命周期价值(customer lifetime value,CLV)的一些文章,对此颇感兴趣,正好最近看到一个关于航空公司客户价值分析的案例,写一篇博客记录一下。 1. 数据挖掘的目标 相对激烈的市场...

    研究生期间读了一些关于客户生命周期价值(customer lifetime value,CLV)的一些文章,对此颇感兴趣,正好最近看到一个关于航空公司客户价值分析的案例,写一篇博客记录一下。

    1. 数据挖掘的目标

    面对激烈的市场竞争,各个航空公司相继推出了很多优惠的营销方案来吸引客户。某航空公司面临着常旅客流失、竞争力下降和航空资源未充分利用等经营危机。通过建立合理的客户价值评估模型,对客户进行分类,分析比较不同客户群体的价值,并制定相应的营销策略,对不同的客户群提供个性化的客户服务是必要的。因此本项目的目标是:

    • 借助航空公司客户数据,对客户进行分类。
    • 对不同的客户类别进行特征分析,比较不同类别的客户的价值。
    • 针对不同价值的客户类别制定相应的营销策略,为其提供个性化服务。

    2. 分析过程与方法

    “以客户为中心”是企业的业务模式,然而维护客户关系需要高昂的成本,追求利润最大化的企业不可能和每一个客户都保持同样的关系。客户营销战略的倡导者 Jay & Adam Curry 提炼出了如下的经验:

    • 公司收入的80%来自顶端的20%的客户。
    • 20%的客户其利润率为100%。
    • 90%以上的收入来自现有客户。
    • 大部分的营销预算经常被用在非现有客户上。
    • 5%至30%的客户在客户金字塔中具有升级潜力。
    • 客户金字塔中客户升级2%,意味着销售收入增加10%,利润增加50%。

    经验不一定正确,但说明了对客户价值进行分析的重要性和必要性。在客户价值分析领域,最具影响力并得到实证检验的理论与模型有:客户终生价值理论、客户价值金字塔模型、策略评估矩阵分析法和RFM客户价值分析模型等。

    2.1 分析步骤与流程

    航空公司客户价值分析案例的总流程如图所示,主要包括以下 4 个步骤:

    图1
    1)抽取航空公司2012年4月1日至2014年3月31日的数据。
    2)对抽取的数据进行数据探索分析与预处理,包括数据缺失值与异常值的探索分析、数据清洗、特征构建、标准化等操作。
    3)基于 RFM 模型,使用 K-Means 算法进行客户分群。
    4)针对模型结果得到不同价值的客户,采用不同的营销手段,提供定制化服务。

    2.2 数据探索分析

    2.2.1 描述性统计

    数据的基本字段有 44 个,分别是:

    客户基本信息 - 9:
    MEMBER_NO	 		会员卡号
    FFP_DATE			入会时间
    FIRST_FLIGHT_DATE	第一次飞行日期
    GENDER				性别
    FFP_TIER			会员卡级别
    WORK_CITY			工作地城市
    WORK_PROVINCE	   	工作地所在省份你
    WORK_COUNTRY   		工作地所在国家
    AGE   				年龄
    
    乘机信息 - 21:
    LOAD_TIME			观测窗口的结束时间
    FLIGHT_COUNT		飞行次数
    BP_SUM				观测窗口总基本积分
    EP_SUM_YR_1			第一年精英资格积分
    EP_SUM_YR_2			第二年精英资格积分
    SUM_YR_1			第一年总票价
    SUM_YR_2			第二年总票价
    SEG_KM_SUM			观测窗口总飞行公里数
    WEIGHTED_SEG_KM		观测窗口总加权飞行公里数(Σ舱位折扣×航段距离)
    LAST_FLIGHT_DATE	末次飞行日期
    AVG_FLIGHT_COUNT	观测窗口季度平均飞行次数
    AVG_BP_SUM			观测窗口季度平均基本积分累积
    BEGIN_TO_FIRST		观察窗口内第一次乘机时间至MAX(观察窗口始端,入会时间)时长
    LAST_TO_END			最后一次乘机时间至观察窗口末端时长
    AVG_INTERVAL		平均乘机时间间隔
    MAX_INTERVAL		观察窗口内最大乘机间隔
    AVG_DISCOUNT		平均折扣率
    P1Y_Flight_Count 	第1年乘机次数	
    L1Y_Flight_Count	第2年乘机次数
    Ration_L1Y_Flight_Count	第2年的乘机次数比率
    Ration_P1Y_Flight_Count	第1年的乘机次数比率
    
    积分信息 - 14:
    ADD_POINTS_SUM_YR_1	观测窗口中第1年其他积分(合作伙伴、促销、外航转入等)
    ADD_POINTS_SUM_YR_2	观测窗口中第2年其他积分(合作伙伴、促销、外航转入等)
    EXCHANGE_COUNT		积分兑换次数
    P1Y_BP_SUM			第1年里程积分
    L1Y_BP_SUM			第2年里程积分
    EP_SUM				观测窗口总精英积分
    ADD_Point_SUM		观测窗口中其他积分(合作伙伴、促销、外航转入等)
    Eli_Add_Point_Sum	非乘机积分总和
    L1Y_ELi_Add_Points	第2年非乘机积分总和
    Points_Sum			总累计积分
    L1Y_Points_Sum		第2年观测窗口总累计积分
    Ration_P1Y_BPS		第1年里程积分占最近两年积分比例
    Ration_L1Y_BPS		第2年里程积分占最近两年积分比例
    Point_NotFlight		非乘机的积分变动次数
    

    对属性观测值中的空缺值个数、最大值和最小值进行探索。代码如下:

    import pandas as pd
    datafile = 'air_data.csv'
    data = pd.read_csv(datafile, encoding = 'utf-8')
    explore['null'] = len(data) - explore['count']
    explore = explore[['null','max','min']]
    explore.columns = [u'空数值',u'最大值',u'最小值']  
    

    1

    2.2.2 分布分析

    分别从客户信息、乘机信息以及积分信息3个角度进行探索,寻找客户信息的分布规律。

    客户基本信息分析
    选取客户基本信息中的入会时间、性别、会员卡级别和年龄字段进行探索分析,探索客户的基本信息分布情况。

    2
    如上图所示,入会人数随着时间的增加而不断增加,2012年入会的人数达到顶峰。

    3

    上图是会员性别比例的饼图,男性占据了3/4的比例。

    4
    上图是会员各级别人数的条形图,可以看出绝大多数的会员是4级,5级和6级的会员人数较少。
    5
    上图是会员年龄的分布箱线图,可以看出大部分的会员年龄集中在30-50岁之间,极少数的会员年龄小于20岁或高于60岁,且有一条年龄超过100岁的异常值。

    客户乘机信息分布分析

    选取最后一次乘机至结束的时长、客户乘机信息中的飞行次数、总飞行公里数进行探索分析,探索客户的乘机信息分布情况。

    6
    从上图 - 会员最后一次乘机距离观测窗口结束的时长分布箱型图可知,绝大多数的客户群体的时长分布在50 - 300小时以下。也有部分客户的时间差超过了600小时,这部分客户有可能已经流失。
    7
    从上图的飞行次数和飞行公里数可以看出,大部分的客户集中在下方的箱型图的箱体中,少数客户分散分布在箱体上界的上方,这部分客户很有可能是高价值客户。

    客户积分信息分布分析

    选取积分兑换次数、总累计积分进行探索分析,探索客户的积分信息分布情况。
    8可以看出绝大部分的客户的兑换次数在 0~5 的区间内,说明大部分客户很少进行积分兑换。
    9可以看出,一部分客户集中在箱体中,少部分客户分散在箱体上方,这部分客户拥有更多的积分。

    2.2.3 相关性分析

    选取入会时间、会员卡级别、客户年龄、飞行次数、总飞行公里数、最近一次乘机至结束时长、积分兑换次数、总累计积分等属性,通过相关系数矩阵和热力图来分析各属性之间的相关性。

    2
    在这里插入图片描述
    通过相关系数表和热力图矩阵,可以看出部分属性之间有较强的相关性,如 FLIGHT_COUNT(飞行次数)属性和 SEG_KM_SUM(飞行总公里数)属性;也有部分属性之间的相关性较弱,比如 AGE(年龄)属性与 EXCHANGE_COUNT(积分兑换次数)属性。

    2.3 数据预处理

    数据预处理主要包括数据清洗、属性规约与数据变换。

    2.3.1 数据清洗

    观察数据发现,原始数据中存在票价为空,票价最小值为0,折扣率最小值为0,总飞行公里数大于0的记录。票价为空值的数据可能是客户 不存在乘机记录造成的,其他的数据可能是客户乘坐0折机票或者积分兑换造成的。由于原始数据量大,这类数据所占比例较小,对 问题影响不大的可以丢弃处理。同时 在进行数据探索时,发现部分年龄大于100 的记录,也进行丢弃处理。

    所以处理的方法如下:

    • 丢弃票价为空的记录。
    • 保留票价不为0,或者平均折扣率不为0且飞行公里数大于0的记录。
    • 丢弃年龄大于100 的记录。

    原数据的shape为:(62988, 44),经过清洗之后数据shape为:(62043, 44)

    2.3.2 属性规约

    (1)认识RFM模型

    本案例将采用 RFM 模型对客户价值进行分析,识别不同价值的客户。先来简单认识一下 RFM 模型。

    R (Recency) 指的是最近一次消费时间与窗口观察结束时间的间隔。通常情况下,客户最近一次消费时间与截止时间的间隔越短,对即时提供的商品或服务也最有可能感兴趣。如果最近一次消费很近的客户越来越少,说明公司存在问题,要调整营销策略。

    F (Frequency) 指客户在某段时间内所消费的次数。消费频率越高的客户,其满意度越高,忠诚度也就越高,客户价值也就越大。商家可以通过采取一定的营销方式不断去刺激客户消费,提高消费频率。

    M (Monetary) 指客户在某段时间内所消费的总金额。该值越大,说明客户的消费能力越强。

    (2)RFM模型解读

    33
    如图所示,用三维坐标系来展示RFM模型,x 轴表示 R 特征,y 轴表示 M 特征,z 轴表示 F 特征。按照三个特征的取值,将客户划分为图中所示的 8 种客户。针对每种类型的客户,一般要采取不同的营销策略。

    (3)LRFMC模型

    该模型是针对航空公司提出的客户价值分析模型。由于航空公司票价受到运输距离、舱位等级等多种因素的影响,同样消费金额的不同旅客对航空公司的价值是不同的。比如:一位购买长航线、低等级舱位票的旅客与一位购买短航线、高等级舱位票的旅客相比,后者对于航空公司而言更有价值。

    本案例选择客户在一定时间内累计的飞行里程 M 和客户在一定时间内乘坐舱位所对应的折扣系数的平均值 C 两个特征代替消费金额。另外航空公司会员入会时间的长短在一定程度上能够影响客户价值,所以在模型中增加客户关系长度 L,作为区分客户的另外一个特征。

    因此选择客户关系长度 L、消费时间间隔 R、消费频率 F、飞行里程数 M 和折扣系数的平均值 C 这5个特征作为航空公司识别客户价值的特征,记为LRFMC模型

    222
    根据模型,选择模型相关的以下6个属性:FFP_DATE, LOAD_TIME, FLIGHT_COUNT, AVG_DISCOUNT, SEG_KM_SUM, LAST_TO_END。

    23

    2.3.3 数据变换

    数据变换包括两个部分:属性构造和数据标准化

    (1)属性构造
    • L = 会员入会时长 = LOAD_TIME - FFP-DATE
    • R = LAST_TO_END
    • F = FLIGHT_COUNT
    • M = SEG_KM_SUM
    • C = AVG_COUNT
    (2)数据标准化

    完成对属性的构造后,对这5个属性进行标准化处理,处理方法如下:

    from sklearn.preprocessing import StandardScaler
    data = StandardScaler().fit_transform(origin_date)
    

    2.4 模型构建

    客户价值分析模型构建主要分为两个部分:第一部分根据航空公司客户 5 个指标的数据,对客户做聚类分群;第二部分,结合业务对每个客户群进行特征分析,分析其客户价值,并对客户群进行排名。

    2.4.1 客户聚类

    采用 K-Means 聚类算法对客户数据进行客户分群,聚成 5 类(需要结合业务理解与分析来确定客户的类别数量)。
    主要代码如下:

    from sklearn.cluster import KMeans
    kmeans_model = KMeans(n_clusters = 5, n_jobs = 4, random_state = 123)
    fit = kmeans_model.fit(data)
    # 查看聚类结果
    kmeans_cc = kmeans_model.cluster_centers_  # 聚类中心
    kmeans_labels = kmeans_model.labels_		# 样本的类别标签
    

    聚类结果如下表:

    234

    2.4.2 客户价值分析

    针对聚类结果进行特征分析,绘制客户分群的雷达图。
    123
    结合业务来分析,通过比较各个特征在群间的大小来对某一个群的特征进行评价分析。通过观察雷达图可以得出:

    • 客户群 1 在各个特征的值都比较小,且在L处的取值最小,说明客户群1是新加入会员较多的客户群。
    • 客户群 2 在C处的值最大,在特征M和F的值较小,说明客户群2是偏好乘坐高级舱位的客户群。
    • 客户群 3 在特征F和M的值最大,且在特征R上的值最小,说明客户群3的会员频繁乘机,且最近都有乘机记录。
    • 客户群 4 在特征值L处的值最大,在特征R处的值较小,其他的特征值适中,说明客户群4的入会时间较长,飞行频率适中,是有一定价值的客户群。
    • 客户群 5 在R处的值最大,在特征 L, F, M 和 C 处的值都比较小,说明客户群5已经很久没有乘机,且是入会时间较短的低价值客户群。

    根据以上对5个客户群的特征分析,将5个等级的客户类别定义为:重要保持客户、重要发展客户、重要挽留客户、一般客户与低价值客户。客户类别的特征分析如图所示:

    在这里插入图片描述
    ① 重要保持客户
    这类客户的平均折扣系数较高,最近乘机距今的时间长度较低,飞行次数或总飞行里程数较高。这类客户是航空公司的高价值客户,对公司的价值最大,所占比例较小 。

    航空公司应该优先考虑将资源投到他们身上,对他们进行差异化管理和定制化营销,提高这类客户的满意度与忠诚度。

    ② 重要发展客户
    这类客户的平均折扣系数较高,最近乘机距今的时间长度较低,飞行次数或总飞行里程数较低,成为会员的时间短,是航空公司的潜在客户。

    航空公司要努力促使这类客户增加在公司的消费和合作伙伴处的消费,也就是增加客户的钱包份额。通过提升客户价值,不断提高客户的满意度,提高他们转向竞争对手的转移成本,使他们逐渐成为公司的忠诚客户。

    ③ 重要挽留客户
    这类客户过去所乘航班的的平均折扣系数较高,飞行次数或总飞行里程数较高,但是最近乘机距今的时间长度较长,即乘坐频率降低了,客户价值变化的不稳定性很高。

    由于这类客户价值衰退的原因不同,所以掌握客户的最新信息、维持与客户的互动很重要。航空公司应该根据这些客户的最近消费时间以及消费次数的变化情况推测客户消费的异动状况,列出客户名单,重点联系,延长其生命周期。

    ④ 一般客户与低价值客户
    这类客户所乘航班的平均折扣系数很低,最近乘机距今的时间长度很高,飞行次数或总飞行里程数很低,入会时间很短。他们是航空公司的一般或低价值客户,可能在机票打折促销的时候,才会乘坐本公司航班。

    基于此,对以上5个客户群进行分类如下:

    2345

    2.5 模型应用

    根据对每个客户群进行分析,可以采取下列一些营销手段和策略,对航空公司的价值客户群管理提供参考。

    会员的升级与保级
    航空公司的会员可以分为白金卡会员、金卡会员、银卡会员、普通卡会员。不同的会员级别享受不同的待遇。公司可以适当进行一些提醒或采取促销活动,刺激乘客通过消费达到标准。

    首次兑换
    航空公司常旅客计划中最吸引客户的内容是客户可以通过消费积累的里程来兑换免票或免费升舱等。当客户的里程或航段积累到一定程度时可以实现第一次兑换。但是公司会让里程随着时间削减,可以采取一些措施比如从数据库中提取出接近但尚未达到首次兑换标准的会员信息,对他们进行适当的提醒或采取一些促销活动,使他们消费达到兑换标准。

    交叉销售
    通过发行“联名卡”等与非航空类企业合作,使客户在消费其他的商品时获得本公司积分,增强与公司的联系,提高忠诚度。例如:查看重要客户在非航空类合作伙伴处的里程积累情况,找出习惯的里程积累方式,为他们制定相应的促销策略。

    写在最后

    企业想要长远发展和获利,一定要有稳定的、高质量的客户。留住客户对企业来说是重要的。通过对数据库中的旅客数据分析,对客户进行细分,可以获得一些重要的信息,例如发现不同类型的客户,并针对这些客户进行差异化营销,不断提高客户满意度和忠诚度。

    另外,由于乘客的数据是不断更新变化的,不能只用固定的数据去做决策,分析的时间窗口要变化,可以每隔一个月运行一次,对客户进行分析。另外,要结合业务,不谈业务的数据分析也是没有意义的。

    展开全文
  • 当今企业可以收集客户在互联网使用过程中的各种数据。这些信息可能包括移动应用使用情况、网络点击、社交媒体互动等,...企业可以从数据分析中获得的五大好处,这包括为企业自身的业务和客户带来积极成果,同时...
  • 电信客户流失数据分析(一)

    万次阅读 多人点赞 2020-04-20 22:41:50
    目录来做个数据分析项目^-^任务1:探索数据集任务2:哪些输入特征与顾客流失具有关联性? 来做个数据分析项目- 背景:在kaggle网站上发现了这个数据集,就顺手拿来做个数据分析的项目,希望发现一些有趣的结果吧~~感...
  • 商业数据分析从入门到入职(1)商业数据分析综述

    千次阅读 多人点赞 2020-09-10 17:33:07
    评价一个事务需要多个角度衡量,基本的分析流程包括理解商业问题、准备阶段、数据分析和解释结果,找整个供应链出现问题的主要环节;点、线、面角度评价业绩;需要用到Excel、Python、MySQL等工具。数据粒度是指...
  • 为了进一步提升自己分析业务的能力,首先得先了解好在日常业务分析当中往往会用到那些数据指标。 接下来我给大家整理了常见的一些数据指标,建议收藏后慢慢阅读。 目录用户获取渠道到达量渠道转化率渠道ROI日应用...
  • Excel数据分析--客户对象分析

    千次阅读 2018-12-06 14:26:50
    拿出一份Excel文档,这个文档是在网上下载的关于银行客户贷款方面的Excel文档。 首先先理清一下数据分析的思路和步骤: 1、拿到相关的统计数据 2、根据问题思考什么样的客户意向最大,提出问题 3、根据问题,清....
  • 简单说明一下,用户分析包括基本属性、交易行为、浏览行为、服务体验、社交分享这几个方面分析,主要应用场景是用户画像、用户忠诚度提升策略设计、用户数增长、精准运营。 这里只进行用户消费行为分析,主要来...
  • 客户分析就是根据客户信息数据来分析客户特征,评估客户价值,从而为客户制订相应的营销策略与资源配置。... 企业客户分析可以以下几个方面入手,对客户数据信息展开分析:  1、分析客户个性化需求 ...
  • 数据分析客户忠诚度

    千次阅读 2019-05-28 18:28:52
    一、 根据客户忠诚度划分 忠诚度是一种行为,也是一种情绪。想要获得客户忠诚度的公司需要着重长远发展而不仅局限于一个项目。主要强调交易式忠诚度和着重“锁住”客户而不是回馈客户的项目并不可行。 客户忠诚是指...
  • 电信客户流失数据分析(二)

    千次阅读 2020-04-21 11:53:06
    数据集的基本背景以及各特征之间的关系分析可见 上一篇博文:电信客户流失数据分析(一) 数据集的输入与预处理(后续所有程序的基础): import seaborn as sns import pandas as pd import numpy as np Te_data =...
  • 淘宝用户数据分析

    千次阅读 2022-03-14 18:08:59
    目录 第一章、绪论... 2 1.1.研究背景及现状......第三章、数据分析... 5 3.1.数据来源... 5 3.2.数据介绍... 5 3.3.数据预处理... 5 3.4.用户行为分析... 6 3.4.1.用户整体行为分析... 6 3.4.2.用户消.
  • 浅谈数据分析数据建模

    千次阅读 2019-11-26 15:43:02
    过去企业都是通过线下渠道接触客户,客户数据不全,只能利用财务数据进行业务运营分析,缺少围绕客户的个人数据,数据分析应用的领域集中在企业内部经营和财务分析。 数字时代到来之后,企业经营的各个阶段都可以被...
  • 数据分析实战--保险公司客户分类分析

    千次阅读 多人点赞 2019-05-05 20:41:58
    -),而是待在家里好好地阅读了我的新书--陈哲老师的《活用数据,驱动业务的数据分析实战》,可谓收获满满。当然说的不是spss的使用技巧,而是分析的思路。书里的案例用的spss,小文并不会,因此小文用python实现了...
  • 数据分析-划分客户等级

    万次阅读 2018-09-21 10:13:05
    文章目录概念1. 划分客户真题:网易笔试:真题:网易...如果我们将企业的客户按照下单频次和客单价两个维度切分成四个象限,划分为A、B、C、D、E五个群体,企业的核心诉求之一,便是找到更多的潜在客户群体A,转化为...
  • 文章目录1 简介2 数据预处理3 数据分析3.1 数据准备3.2 数据可视化3.2.1 查看数据大概分布3.2.2 分布直方图4 R、F、M模型4.1 模型含义4.2 R、F、M的均值4.3 不同类型的客户消费份额4.4 利用最近交易间隔,交易金额...
  • 客户流失分析与预测 一、数据来源 ...二、数据整理 1、导入函数包 import pandas as pd import numpy as np ...data=pd.read_csv(r"D:\百度网盘\数据分析—实例\运营商客户流失分析与预测\WA_Fn-UseC_-Telco-C
  • 数据分析项目实战—信用卡客户违约概率预测

    万次阅读 多人点赞 2020-05-24 11:07:51
    项目背景: 因信用卡使用给人们带来便利,越来越多的人使用信用卡。...本文主要从分析框架、数据处理和建立预测模型等几个方面进行分析和介绍: 1、明确分析需求 1.1数据介绍 本数据来kaggle数据集: 提
  • 数据分析数据预处理、分析建模、可视化

    万次阅读 多人点赞 2020-08-08 15:03:21
    概述:简介、思路、发展...数据分析方法:描述统计、假设检验、信度分析、相关分析、方差分析、回归分析、聚类分析、判别分析、主成分分析、因子分析、时间序列分析等; 数据可视化:Excel、PowerBI、Tableau、Python;
  • 本次建模项目是来自于《python数据分析与挖掘实战》的案例,是介绍航空公司客户价值的分析,书中给出了关于62988个客户的基本信息和在观测窗口内的消费积分等相关信息,其中包含了会员卡号、入会时间、性别、年龄、...
  • 文章目录0 前言1 数据分析背景2 分析策略2.1 航空公司客户价值分析的LRFMC模型2.2 数据2.3 分析模型3 开始分析3.1 数据预处理3.1.1 数据预览3.1.2 数据清洗3.2 变量构建3.3 建模分析4 数据分析结论4.1 整体结论4.2 ...
  • 商品销售数据分析报告

    千次阅读 2021-11-16 20:52:20
    将基于电商用户的销售数据进行数据分析,探索用户消费行为概况和特点,寻找高价值客户,为精准营销与精细化运营提供数据支撑,从而帮助平台/商家实现营收增长。
  • 第6章 STP分析案例解析——甲保险公司客户分类分析 6.1 研究目的:精准营销 对车险客户分类调研分析,开展精准营销,以期建立起自身的相对优势 6.2 研究内容:客户分类维度 客户分类的5种维度  自然属性因素  ...
  • 这三个特点衍生出了物流企业四大问题,分别是数据匮乏,过程管控无力;利润口径不一,经营决策分歧;成本分摊不明确,客户质量模糊;管理目标不清晰,工作难聚焦。 这四大问题导致了企业难管理、难壮大,成为企业...
  • 在现如今大数据时代的背景下,有越来越多的企业正经受着数据网络的考验,其中很突出的就是管理會计,作为企业财务中一个重要的组成部分,是持续为企业整合和加工财务资料的职务,管理会计正为企业发展提供强有力的...
  • 数据分析技术应用领域有哪些

    千次阅读 2020-09-22 16:10:46
     当然,大数据分析为他们提供了优于竞争对手的优势,可以确定他们需要改进服务或产品的哪些领域,销售可能增加或减少以及市场上可能存在漏洞的地方。  这表明了在多个组织中使用大数据分析的重要性。一位研究人员...
  • 数据分析(一)——数据分析思维

    千次阅读 多人点赞 2020-10-04 18:47:27
      上篇文章我们初步介绍了数据分析的概要,大概从数据分析现在的应用现状、数据分析的概念、数据分析分析方法、为什么要学习数据分析以及数据分析的结构层次等几方面给大家介绍了数据分析,让大家初步对数据分析...
  • 商业数据可视化分析基础知识

    千次阅读 2022-04-25 12:43:48
    商业数据可视化分析的目的与意义,分析流程与步骤,可视化分析的优点,分析常用的工具,数据分析原理以及现状与需求

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 286,544
精华内容 114,617
关键字:

客户数据从哪些方面分析