精华内容
下载资源
问答
  • 对客户信息进行分析的方法
    千次阅读
    2022-01-04 21:45:16

    用户画像是建立在一系列真实数据之上的目标用户模型,通过调查、数据采集等一系列手段采取用户信息,了解用户,并根据他们的目标、行为和观点,将他们区分为不同的类型,抽取出每种类型的特征,形成不同的群体。简单来说,用户画像就是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心的工作,是给用户贴“标签”,标签是通过对用户信息分析而来的高度精炼的特征标识。在大数据时代,用户画像已经成为用户分析和用户研究的最为重要的方法之一,我们需要特别注意的是用户画像要建立在真实的数据之上,同时,用户画像也处在不断的修正和变化中,总之,用户画像是在客户营销、产品设计、风险管理等的过程

    用户画像涵盖数据的全生命周期,主要包括数据采集、数据清洗、数据标准化、用户建模、标签挖掘、标签验证、可视化等几大步骤。

    数据采集

    数据收集的方式方法,对数据的有效性影响很大,线上一般采用“监控、跟踪”,线下一般采用用户调研等,很多公司都有自己的CRM系统,或者有智能采集系统日志的工具,常用的采集方式包括API、SDK和传感器采集等,当然也可以通过想挖掘什么特征来反推需要的数据源。

    数据清洗

    原始数据因为存在“脏数据”,主要为缺失值、异常值、错误值等,为了避免“垃圾进垃圾出”的问题,保证后期数据分析和数据挖掘的准确性,避免对决策造成误导,必须对数据进行清洗等预处理。

    数据标准化

    用户画像的建立需要整合多元数据,如一个用户的信息可能分布在企业人事、财务等多个系统,互联网的用户也可用使用PC、手机、IPAD等多个设备,用为QQ、微信、陌陌等过个社交账号,要建立用户画像,需要整合这些数据,就必须通过建立统一的数据标准,整合多个身份ID及其信息。

    用户建模

    通过逻辑回归、时间序列等预测算法,SVM、贝叶斯等分类、聚类算法、LDA等文本挖掘方法以及欧式距离、余弦相似度等定义人群的用户画像。

    标签挖掘

    用户标签按照不同的粒度,可以分为一级标签、二级标签、三级标签等。根据专业经验和模型找出用户标签,通过大数据平台进行标签的加工和计算。

    标签验证

    通过样本外验证或后续实践案例不断验证标签挖掘结果的正确性,对偏离预期的标签要及时修正,保证标签对应的处理结果跟预期大体相符。

    数据可视化

    通过报表、图表、SNA等视觉呈现群体或个人的用户画像,达到清晰直观的效果。

    更多相关内容
  • 数据分析方法——用户群组分析

    千次阅读 2020-12-26 01:38:30
    群组分析方法就是按照某个特征数据进行分组,通过分组比较得出结论并提供指导的方法。 将用户数据按照性别特征,可以分成男生和女生;将用户注册时间作为特征,按注册的月不同可以进行分组。 群组分析的方法常常...

    数据分析方法——用户群组分析

    内容摘要

    一、群组分析方法介绍

    • 群组分析方法就是按照某个特征对数据进行分组,通过分组比较得出结论并提供指导的方法。
    • 将用户数据按照性别特征,可以分成男生和女生;将用户注册时间作为特征,按注册的月不同可以进行分组。
    • 群组分析的方法常常用来分析用户留存/流失问题,或者金融行业用户还款逾期的问题,其根据月份分组等分析方式较为常见。
    • 群组分析主要目的是分析相似群体随时间的变化,核心就是对比、分析不同时间群组的用户在相同的周期下的行为差异,也称同期群分析。
    • 群组分析的三个步骤:
      1、数据分组
      2、假设检验,针对问题提出假设进行检验
      3、相关性分析法,对比不同假设之间的相关性

    本博客以步骤一(数据分组)为主

    二、项目背景及目的

    某电商平台有一批用户消费记录,包括用户信息,订单信息,金额,订单日期等等。希望通过群组分析,查看用户留存率变化趋势,分析不同时间群组的用户在相同的周期下的行为差异,为后续针对不同用户群体制定策略起到基础性工作。

    三、python实操

    (1)数据导入

    • 常规操作:导入必备的pandas、numpy库,本次数据存放在数据库中,再导入sqlalchemy库
    • 使用sqlalchemy库,调用数据库
    import pandas as pd
    import numpy as np
    import sqlalchemy
    
    # 读取数据
    engine = sqlalchemy.create_engine('mysql+pymysql://**********@localhost:3306/froghd')
    sql_cmd = "select * from groups_data"
    # 执行sql语句,获取数据
    df = pd.read_sql(sql=sql_cmd, con=engine)
    #数据展示
    df.head()
    

    在这里插入图片描述

    • 数据集如上图所示,我们主要集中统计用户数量(userid)、订单数量(orderid)、订单日期(orderdate)和总金额(totalcharges)

    (2)数据处理

    • 本次群组分析的主要是针对每月的新用户的留存率进行分析,因此需要以月为尺度进行整理数据。
    • 数据集中的订单日期精确到了日,我们需要将其省略至月(这里使用strftime函数进行提取)
    # 生成一个新字段,用户订单月份
    df["orderperiod"] = df.orderdate.apply(lambda x:x.strftime("%Y-%m"))
    

    在这里插入图片描述

    • 群组分析针对月份,首先要确定每个月的新用户是多少,因此需要确定每个用户的最早购买日期,也是用户群组的标志
    • 之后的分析是针对时间序列的,因此每个用户每次购买的日期也需要
    • 因此考虑以用户信息(userid)为分组依据比较好,但是如果直接groupby的话,需要对其余信息进行聚集,如果对消费日期进行聚集则会出现缺失日期的情况,因此不能直接对userid分组
    • 主要思路是将每个用户的最早消费日期与每一次的消费日期拼接在一起
    • (1)考虑将用户信息(userid)当作索引,再对索引分组
    • (2)新增加一列用户的最早购买日期(即用户群组)
    • (3)之后再通过重置索引列,将分组数据拆成独立的数据
    # 设置userid为索引
    df.set_index("userid",inplace=True)
    # 这里的level=0表示第一层索引即userid,并且每次分组之后都会形成很多个dataframe
    # 按照每个用户的订单的最早时期,生成用户群组
    df["cohortgroup"]=df.groupby(level=0)["orderdate"].min().apply(lambda x:x.strftime("%Y-%m"))
    df.reset_index(inplace=True)
    df.head()
    

    在这里插入图片描述

    • 可以看出每一个用户每一次消费的记录后面都有两个时间,一个是本次消费的时间,一个是该用户最早的消费时间
    • 之后对用户群组消费时间进行分组
    # 根据用户群组和月份字段进行分组
    grouped = df.groupby(["cohortgroup","orderperiod"])
    # 求每个用户群下每一个月份的用户数量、订单数量、购买金额
    cohorts = grouped.agg({"userid":pd.Series.nunique,
                          "orderid":pd.Series.nunique,
                          "totalcharges":np.sum})
    # 重命名
    cohorts.rename(columns={"userid":"totalusers",
                           "orderid":"totalorders"},inplace=True)
    cohorts.head()
    

    在这里插入图片描述

    • 随后还可以对每一个用户群组内的数据进行标签简化

    • 每一个用户群组进行groupby并打标签

    # 把每个群组继续购买的日期字段进行改变
    def cohort_period(df):
        # 给首次购买日期进行编号,第二次购买为2,第三次购买为3
        df["cohortperiod"] = np.arange(len(df)) + 1
    
        return df
    
    # 注意的是apply后面传入的是一个个dataframe
    cohorts = cohorts.groupby(level=0).apply(cohort_period)
    
    cohorts.head()
    

    在这里插入图片描述

    (3)用户群组存留率计算

    • 用户群组存留率计算的关键:每个用户群组初始数量,利用随后每一个月的留存量除以初始数量即可,其初始数量就是用户群组(最早日期)跟群组内日期相同那组的用户个数
    • 针对之前简化后的数据可以进行索引的简化
    • 调整groupby索引的方法:
      -(1)先将groupby数据拆解成DataFrame数据;利用reset_index
      -(2)再重新设定索引列;利用set_index([ ])
    # 得到每个群组的用户量
    # 重新设置索引
    cohorts.reset_index(inplace=True)
    cohorts.set_index(["cohortgroup","cohortperiod"],inplace=True)
    cohorts.head()
    

    在这里插入图片描述

    • 统计每一个用户群组初始数量:就是用户群组(最早日期)跟群组内日期相同那组的用户个数
    # 得到每个群组的用户量,就是第一天的用户数据量,用作留存率的分母
    cohort_group_size = cohorts["totalusers"].groupby(level=0).first()
    cohort_group_size.head()
    

    在这里插入图片描述

    • 将数据进行调整,groupby的数据旋转过来,时间序列沿着横轴,利用unstack函数
    # 计算每个群组的留存
    # unstack 是把index转化为column
    #unstack()中的序号表示要展示的列名
    cohorts["totalusers"].unstack(0).head()
    

    在这里插入图片描述

    • 留存率计算,每一月的除以初始数量
    # 计算留存
    user_retention = cohorts["totalusers"].unstack(0).divide(cohort_group_size,axis=1)
    user_retention.head()
    #这里写法不唯一,可以使用apply搭配lambda函数
    

    在这里插入图片描述

    (4)用户群组存留率可视化

    • 折线图
    # 折线图展示
    import matplotlib.pyplot as plt
    import matplotlib as mpl
    pd.set_option("max_columns",50)
    mpl.rcParams["lines.linewidth"] = 2
    %matplotlib inline
    user_retention[["2009-01","2009-02","2009-03"]].plot(figsize=(5,3))
    plt.title("user tetention")
    plt.xticks(np.arange(1,12.1,1))
    plt.xlim(1,12)
    plt.ylabel("%of cohort")
    

    在这里插入图片描述

    • 热力图
    # 热力图展示
    import seaborn as sns
    sns.set(style="white")
    
    plt.figure(figsize=(8,4))
    plt.title("co:user retention")
    sns.heatmap(user_retention.T,mask=user_retention.T.isnull(),annot=True,fmt=".0%")
    

    在这里插入图片描述

    四、总结

    1. 本次主要以理解用户群组分析方法和python代码实操为主

    2. 用户群组分析就是将用户按照一定的特征进行分组归纳,其中一部分有些类似数据分箱;但主要应用方面是对不同时期的用户进行时间序列的分析,观察留存率,新老用户行为等等

    3. python实现时间上的用户群组分析,需要注意如下几点:
      (1)落脚点是用户,需要对用户进行groupby,但是要整合每个用户的最早消费日期和每次消费日期,故需要将用户信息设置成索引从而保证数据的完整性;
      (2)将每个用户的两个时间整合好后,才开始进行用户群组(相同的起始时间)分析,对其进行groupby分组;
      (3)留存率的分母是每一群组的起始用户数量=两个时间相同下的用户信息

    4. 对用户群组进行分解整理后,为后续的假设检验和相关性分析打下基础。

    展开全文
  • 客户需求分析方法1;目录;KJ方法的位置;KJ 方法是协助发现NUD需求的工具;如果不是NUD怎么办;回顾获得和处理客户需求的过程;DFSS 工具: 情景 KJ 分析;DFSS 工具: 情景转化;DFSS 工具: 需求 KJ 分析;DFSS 工具: 客户...
  • 数据分析方法用户画像分析!

    千次阅读 2021-04-09 00:31:16
    01 写在前面 我们经常在淘宝上购物, 作为淘宝方,他们肯定想知道他的使用用户是什么样的, 是什么样的年龄性别, 城市, 收入, 他的购物品牌偏好, 购物类型, 平时...

    01

        写在前面

        

        

    我们经常在淘宝上购物, 作为淘宝方, 他们肯定想知道他的使用用户是什么样的, 是什么样的年龄性别, 城市, 收入, 他的购物品牌偏好, 购物类型, 平时的活跃程度是什么样的, 这样的一个用户描述就是用户画像分析

    无论是产品策划还是产品运营, 前者是如何去策划一个好的功能, 去获得用户最大的可见的价值以及隐形的价值, 必须的价值以及增值的价值, 那么了解用户, 去做用户画像分析, 会成为数据分析去帮助产品做做更好的产品设计重要的一个环节。

    那么作为产品运营, 比如要针用户的拉新, 挽留, 付费, 裂变等等的运营, 用户画像分析可以帮助产品运营去找到他们的潜在的用户, 从而用各种运营的手段去触达。

    因为当我们知道我们的群体的是什么样的一群人的时候, 潜在的用户也是这样的类似的一群人, 这样才可以做最精准的拉新, 提高我们的ROI

    在真正的工作中, 用户画像分析是一个重要的数据分析手段去帮助产品功能迭代, 帮助产品运营做用户增长。

    总的来说, 用户画像分析就是基于大量的数据,  建立用户的属性标签体系, 同时利用这种属性标签体系去描述用户

    02

       用户画像的作用

    像上面描述的那样, 用户画像的作用主要有以下几个方面

    1.广告投放

    在做用户增长的例子中, 我们需要在外部的一些渠道上进行广告投放, 对可能的潜在用户进行拉新, 比如B站在抖音上投广告

    我们在选择平台进行投放的时候, 有了用户画像分析, 我们就可以精准的进行广告投放, 比如抖音的用户群体是18-24岁的群体, 那么广告投放的时候就可以针对这部分用户群体进行投放, 提高投放的ROI

    假如我们没有画像分析, 那么可能会出现投了很多次广告, 结果没有人点击

    2.精准营销

    假如某个电商平台需要做个活动给不同的层次的用户发放不同的券, 那么我们就要利用用户画像对用户进行划分, 比如划分成不同的付费的活跃度的用户, 然后根据不同的活跃度的用户发放不用的优惠券。

    比如针对付费次数在 [1-10] 的情况下发 10 元优惠券刺激, 依次类推

    3. 个性化推荐

    精确的内容分发, 比如我们在音乐app 上看到的每日推荐, 网易云之所以推荐这么准, 就是他们在做点击率预估模型(预测给你推荐的歌曲你会不会点击)的时候, 考虑了你的用户画像属性。

    比如根据你是90后, 喜欢伤感的, 又喜欢杰伦, 就会推荐类似的歌曲给你, 这些就是基于用户画像推荐

    4. 风控检测

    这个主要是金融或者银行业设计的比较多, 因为经常遇到的一个问题就是银行怎么决定要不要给一个申请贷款的人给他去放贷

    经常的解决方法就是搭建一个风控预测模型, 去预约这个人是否会不还贷款,同样的, 模型的背后很依赖用户画像。

    用户的收入水平, 教育水平, 职业, 是否有家庭, 是否有房子, 以及过去的诚信记录, 这些的画像数据都是模型预测是否准确的重要数据

    5. 产品设计

    互联网的产品价值 离不开 用户 需求 场景 这三大元素, 所以我们在做产品设计的时候, 我们得知道我们的用户到底是怎么样的一群人, 他们的具体情况是什么, 他们有什么特别的需求, 这样我们才可以设计出对应解决他们需求痛点的产品功能

    在产品功能迭代的时候, 我们需要分析用户画像行为数据, 去发现用户的操作流失情况, 最典型的一种场景就是漏斗转化情况, 就是基于用户的行为数据去发现流失严重的页面, 从而相对应的去优化对应的页面,

    比如我们发现从下载到点击付款转化率特别低,那么有可能就是我们付款的按钮的做的有问题, 就可以针对性的优化按钮的位置等等

    同时也可以分析这部分转化率主要是在那部分用户群体中低, 假如发现高龄的用户的转化率要比中青年的转化率低很多, 那有可能是因为我们字体的设置以及按钮本身位置不显眼等等, 还有操作起来不方便等等因素

    6. 数据分析

    在做描述性的数据分析的时候, 经常需要画像的数据, 比如描述抖音的美食博主是怎么样的一群人, 他们的观看的情况, 他们的关注其他博主的情况等等

    简单来说就是去做用户刻画的时候, 用户画像可以帮助数据分析刻画用户更加清晰。

    03

    如何搭建用户画像

    用户画像搭建的架构如下: 

    数据层: 

    首先 是数据层,  用户画像的基础是首先要去获取完整的数据, 互联网的数据主要是 利用打点, 也就是大家说的数据埋点上报上来的, 整个过程就是 数据分析师会根据业务需要提数据上报的需求,然后由开发完成, 这样就有了上报的数据。

    除了上报的数据, 还有其他数据库同步的数据, 一般会把数据库的数据同步到hive表中, 按照数据仓库的规范, 按照一个个主题来放置

    还有一些其他的数据比如外部的一些调研的数据, 以excel 格式存在, 就需要把excel 数据导入到hive 表中

    挖掘层:

    有了基础的数据以后, 就进入到挖掘层, 这个层次主要是两件事情, 一个是数据仓库的构建, 一个是标签的预测, 前者是后者的基础。

    一般来说我们会根据数据层的数据表, 对这些数据表的数据进行数据清洗,数据计算汇总, 然后按照数据仓库的分层思想, 比如按照 数据原始层, 数据清洗层, 数据汇总层, 数据应用层等等进行表的设计

    数据原始层的表的数据就是上报上来的数据入库的数据, 这一层的数据没有经过数据清洗处理, 是最外层的用户明细数据

    数据清洗层主要是数据原始层的数据经过简单数据清洗之后的数据层, 主要是去除明显是脏数据, 比如年龄大于200岁,  地域来自 FFFF的 等明显异常数据

    数据汇总层的数据主要是根据数据分析的需求, 针对想要的业务指标, 比如用户一天的听歌时长, 听歌歌曲数, 听的歌手数目等等, 就可以按照用户的维度, 把他的行为进行聚合, 得到用户的轻量指标的聚合的表。

    这个层的用处主要是可以快速求出比如一天的听歌总数, 听歌总时长, 听歌时长高于1小时的用户数, 收藏歌曲数高于100 的用户数是多少等等的计算就可以从这个层的表出来

    数据应用层主要是面向业务方的需求进行加工, 可能是在数据汇总的基础上加工成对应的报表的指标需求, 比如每天听歌的人数, 次数, 时长, 搜索的人数, 次数, 歌曲数等等

    按照规范的数据仓库把表都设计完成后, 我们就得到一部分的用户的年龄性别地域的基础属性的数据以及用户观看 付费 活跃等等行为的数据

    但是有一些用户的数据是拿不到的比如音乐app 为例, 我们一般是拿不到用户的听歌偏好这个属性的数据, 我们就要通过机器学习的模型对用户的偏好进行预测

    机器学习的模型预测都是基于前面我们构建的数据仓库的数据的, 因为只有完整的数据仓库的数据, 是模型特征构建的基础

    服务层:

    有了数据层和挖掘层以后, 我们基本对用户画像体系构建的差不多, 那么就到了用户画像赋能的阶段。

    最基础的应用就是利用用户画像宽表的数据, 对用户的行为进行洞察归因 挖掘行为和属性特征上的规律

    另外比较大型的应用就是搭建用户画像的平台, 背后就是用户画像表的集成。

    用户提取: 我们可以利用用户画像平台, 进行快速的用户选取,  比如抽取18-24岁的女性群体 听过杰伦歌曲的用户, 我们就可以快速的抽取。

    分群对比: 我们可以利用画像平台进行分群对比。比如我们想要比较音乐vip 的用户和非vip 的用户他们在行为活跃和年龄性别地域 注册时间, 听歌偏好上的差异, 我们就可以利用这个平台来完成

    功能画像分析: 我们还可以利用用户画像平台进行快速进行某个功能的用户画像描述分析, 比如音乐app 的每日推荐功能, 我们想要知道使用每日推荐的用户是怎么样的用户群体, 以及使用每日推荐不同时长的用户他们的用户特征分别都是怎么样的,就可以快速的进行分析

    详解用户流失原因分析该如何入手?

    12000+字超详细 SQL 语法速成!

    后台回复“入群”即可加入小z干货交流群
    
    展开全文
  • 在该集合中,计算多层级决策分析相似度,结合用户对项目测评结果设计分级推荐方案,构建数字图书信息项目本体,依据五元组形式相似度进行排序,将相似度高的项目推荐给用户数字图书信息进行分级保密,避免外界...
  • 使用飞浆模型 senta_bilstm 评论数据进行情感分析 使用飞浆模型 lac 评论数据进行分词 使用 groupby+agg 方法统计评论主题中消极和积极用户分布 使用 value_counts 方法统计整体评论分布情况 使用 pyecharts ...


    本文可以学习到以下内容:

    1. 使用 pandas 中的 read_sql 读取 sqlite 中的数据
    2. 使用飞浆模型 senta_bilstm 对评论数据进行情感分析
    3. 使用飞浆模型 lac 对评论数据进行分词
    4. 使用 groupby+agg 方法统计评论主题中消极和积极用户分布
    5. 使用 value_counts 方法统计整体评论分布情况
    6. 使用 pyecharts 绘制柱状图、词云图

    关注微信公众号《帅帅的Python》,后台回复《数据分析》获取数据及源码

    在这里插入图片描述

    项目背景

    小凡,用户对耳机商品的评论信息,你有没有什么好的办法分析一下?经理来向小凡请教问题。

    嗯,小凡想了一会儿…

    我想到了两种分析方法:

    1、用模型判断用户评论信息的情感态度,分析消极和积极的占比

    2、用分词模型对评论内容进行切分,分析客户关注的重点

    经理听完,甚是欣慰,便让小凡着手分析用户的评论数据。

    获取数据

    import os
    import pandas as pd
    import numpy as np
    from sqlalchemy import create_engine
    
    # 数据库地址:数据库放在上一级目录下
    db_path = os.path.join(os.path.dirname(os.getcwd()), "data.db")
    engine_path = "sqlite:///" + db_path
    # 创建数据库引擎
    engine = create_engine(engine_path)
    
    sql = """
    select 
    a.user_id
    ,a.username
    ,a.age
    ,b.content
    --,b.sentiment_value
    ,b.create_time
    ,b.subject
    from
    users as a
    left join
    comment as b
    on a.user_id=b.user_id
    """
    
    df = pd.read_sql(sql, engine)
    
    df.sample(5)
    

    在这里插入图片描述

    数据解释:

    user_id:用户id

    username:用户名

    age:年龄

    content:评论内容

    sentiment_value:情感值【0消极,1积极,-1未知】(用飞浆重写训练得到情感值)

    create_time:评论时间

    subject:评论主题

    情感倾向

    小凡使用百度飞浆(paddlepaddle)模型库中的情感分析模型,将评论数据(content)转化为情感类别【积极1,消极0】

    senta_bilstm 模型

    一、window10+anaconda3的安装命令:

    conda install paddlepaddle==2.2.1 --channel https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/Paddle/
    

    其他安装飞浆命令:官网地址

    二、安装预训练模型应用工具 PaddleHub

    pip install paddlehub==2.0.0
    

    飞浆模型库地址:官网地址

    飞浆情感分析模型介绍:官网地址

    import paddlehub as hub
    
    # 加载模型
    senta = hub.Module(name="senta_bilstm")
    
    # 评论数据列表
    test_text = df["content"].tolist()
    # 模型返回的结果
    results = senta.sentiment_classify(texts=test_text, use_gpu=False, batch_size=1)
    
    

    情感划分

    将 negative_probs>=0.7 的定义为消极

    # 将返回的结果转为 dataframe 数据,并拼接到原始数据中
    results_df = pd.DataFrame(results)
    
    df2 = pd.concat([df,results_df],axis=1)
    # 将 negative_probs>=0.7 的定义为消极
    df2["new_sentiment_label"] = df2["negative_probs"].map(lambda x: 0 if x>=0.7 else 1)
    
    df2[df2["sentiment_label"]!=df2["new_sentiment_label"]].sample(2)
    

    在这里插入图片描述

    数据描述

    df2.info()
    

    在这里插入图片描述

    数据分析

    总体评论倾向

    (df2.new_sentiment_label.value_counts(normalize=True)).map(lambda x:"{:.2%}".format(x))
    

    在这里插入图片描述

    可以看到,大约 60% 的用户给出好评

    评论分布

    (df2.subject.value_counts(normalize=True)).map(lambda x:"{:.2%}".format(x))
    

    在这里插入图片描述

    用户的评论内容多集中在配置、音质等主题上

    各分布的情感倾向

    df2.groupby(by=["subject","sentiment_key"],as_index=False).agg({"new_sentiment_label":"count"})
    

    在这里插入图片描述

    from pyecharts import options as opts
    from pyecharts.charts import Bar
    
    x_name = ['配置', '音质', '价格', '功能', '外形', '舒适']
    y_value = [1384,  597,  427,  102,   95,   42]
    c = (
        Bar()
        .add_xaxis(x_name)
        .add_yaxis("评论分布",y_value)
        .set_global_opts(
            xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)),
            title_opts=opts.TitleOpts(title="评论分布"),
        )
    )
    c.render_notebook()
    

    在这里插入图片描述

    评论分词

    这里使用百度飞浆的LAC分词模型

    飞浆LAC分词模型:官网地址

    import paddlehub as hub
    
    # 加载模型
    lac = hub.Module(name="lac")
    test_text = df["content"].tolist()
    # 模型分词结果
    results = lac.cut(text=test_text, use_gpu=False, batch_size=1, return_tag=True)
    # 将所有分词保存到一个列表中
    result_word_list = []
    for result in results:
        result_word_list.extend(result["word"])
    

    去除停用词

    # 停用词数据
    with open("./stop_words.txt","r",encoding="utf-8") as f:
        # 用 strip 删除换行符 /n
        stop_word_list = [s.strip() for s in f.readlines()]
    
    # 统计每个词出现的次数
    word_cloud_dict = {}
    for w in result_word_list:
        # 如果在停用词中就不统计
        if w in stop_word_list:
            continue
        if w in word_cloud_dict.keys():
            word_cloud_dict[w] = word_cloud_dict[w]+1
        else:
            word_cloud_dict[w] = 1
    
    # 制作词云图的数据
    word_cloud_data = sorted(word_cloud_dict.items(),key=lambda x:x[1],reverse=True)
    

    绘制词云图

    import pyecharts.options as opts
    from pyecharts.charts import WordCloud
    
    
    word_cloud = (
        WordCloud()
        .add(series_name="评论热词", data_pair=word_cloud_data, word_size_range=[6, 66])
        .set_global_opts(
            title_opts=opts.TitleOpts(
                title="评论热词", title_textstyle_opts=opts.TextStyleOpts(font_size=23)
            ),
            tooltip_opts=opts.TooltipOpts(is_show=True),
        )
    )
    word_cloud.render_notebook()
    

    在这里插入图片描述

    结论

    分析结束后,小凡总结出以下结论:

    1. 目前耳机用户的好评在60%左右
    2. 客户反映最多的耳机配置、音质问题

    小凡将结论汇报给经理,和经理一起想出一个可行的方案解决目前存在的问题。

    展开全文
  • 分析方法:通过对客户基本资料、客户存取贷款记录、客户金融产品购买等信息数据进行深入分析,建立客户的群体划分标准,以针对不同客户群体进行针对性营销;建立客户消费行为的分析模型和评价指标体系,以进行客户...
  • 为了充分挖掘网络运行数据、系统分析IP网络用户行为,可以从用户、业务、流量三个维度对用户行为分析需求进行归类整理。除了分析需求之外,数据分析方法也是用户行为分析的关键。IP网络用户行为分析过程实际上是一个...
  • 确定用户对系统的使用情况是设计用例具体数据的基础,后面并发用户数据设计、疲劳强度...当用户比较分散、现场调查比较困难时,可以采用系统日志进行分析方法,以此作为对用户现场调查信息的补充。  (PS:大多数的
  • 六种常见的「用户行为」分析方法

    千次阅读 2020-04-10 23:20:24
    日常的用户行为分析中,常用的六大分析方法有:行为事件分析页面点击分析用户行为路径分析用户健康度分析漏斗模型分析用户画像分析用户分析能够更好地了解用户的行为习惯,发现产品在推广、拉新、用户...
  • 原文链接 : http://www.36dsj.com/archives/2705首先看...数据挖掘传统的一些领域,包括客户细分、营销预测、产品关联、实时分析客户提升、价值分析,以及现在随着大数据技术的兴起,我们会做实时分析,已经有...
  • 以社群运营为例,只有通过对用户进行画像分析,商家才可以有效的掌握用户的准确信息,并通过画像分析出来的结果对用户进行分群、分层,最后有针对性的进行用户运营,这就是进行用户画像分析的目的,
  • 针对用户评论中产品特征—观点的提取及情感分析问题进行了研究。为了提高提取及分析的准确性,利用组块分析提取产品特征,从中寻找到频繁项集,并用逐点互信息量(PMI)候选产品特征进行过滤,得到产品的特征...
  • 软件工程需求分析方法

    千次阅读 2019-11-28 17:12:02
    详细介绍软件工程需求分析方法,转载自别处,
  • 16种常用的数据分析方法-聚类分析

    千次阅读 2021-11-25 14:02:34
    聚类分析是根据在数据中发现的描述对象及其关系的信息,将数据对象分组。目的是,组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内相似性越大,组间差距越大,说明聚类效果越好。...
  • 小飞象·读书会生活从来不会刻意亏欠谁,它给你一块阴影,必会在不远处撒下阳光。读书交流│3期数据分析方法与业务知识dataanalysis●●●●分享人:木兮欢迎大家参加这次读书会的直播...
  • 客户需求分析方法1;目录;KJ方法的位置;KJ 方法是协助发现NUD需求的工具;如果不是NUD怎么办;回顾获得和处理客户需求的过程;DFSS 工具: 情景 KJ 分析;DFSS 工具: 情景转化;DFSS 工具: 需求 KJ 分析;DFSS 工具: 客户...
  • 第一次进入小程序,此时小程序还未获得我们的授权,而判断我们是否授权的方法getSetting,由于我们还没有授权,res.authSetting['scope.userInfo']值为false,所以不进行全局的用户信息赋值操作,直接失败。...
  • 将动态异构的Web信息资源进行抽取以统一的方式供用户查询和使用,是当前迫切需要解决的问题。介绍了分析相关Web页面的方法和经验,实现了自动提交HTML表单获得所需页面和页面的信息抽取。最后,实验证明了此方法的...
  • 面部信息处理模块用于提取游客在进入景区时的面部图像和游客游览景区的过程中获取面部图像信息,面部信息处理模块获取的面部图像进行分析;行为监测模块用于监测用户在游览景区的过程中的双臂和手部行为并进行分析...
  • 静态和流动两类We b日志情况进行分析,分别给出了语义奇异值鉴别方法SOAs和SOAd对用户会话进行切分识别.最后提出的方法与现有经典方法进行了比较实验与分析,结果表明会话识别的精确率和召回率有所提高.
  • 如果问你一个问题:如何分析一家企业?很多人都会回答:从财务分析入手,但是这个好难,不是专业人员做不出来,就是专业的财务人员,做这个也不是一件容易的事情。 其实财务分析并不难,关键是建立一套思维逻辑和...
  • 1.业务指标 1.1 如何理解数据 可从以下两个方面理解数据: 每一列的含义 数据分类 从数据分类里,进一步地可以分为: 用户数据:比如用户的姓名、年龄、职业等;...对用户分类,可以分为新增用户、活跃用户
  • 数据分析方法论(6种方法,8个思路)

    万次阅读 多人点赞 2020-02-26 17:23:05
    在介绍数据分析方法论和思路之前,我们还是先不厌其烦地看一下数据分析的流程,简单来说分为以下六个步骤: 1、明确分析的目的,提出问题。只有弄清楚了分析的目的是什么,才能准确定位分析因子,提出有价值的问题...
  • SA方法分析-图书管理系统

    千次阅读 2019-03-11 16:26:13
    SA方法分析-图书管理系统 需求获取 功能要求 图书管理要求 新书入库 借书 还书 图书注销 查询统计要求 图书的查询 读者查询 书籍分类统计 分析与综合 建模 功能模型 数据流图 数据字典 数据...
  • 业界客户需求分析方法有很多,例如访谈法、问卷调查、焦点小组、历史数据调查、原型法等,不管用什么方法收集需求都面临一个去伪存真的过程,怎么有效判断需求的真实性?是个性化需求还是普遍性需...
  • 软件测试需求分析方法

    万次阅读 多人点赞 2018-03-26 20:51:58
    从而这些质量子特性进行测试类型划分,如:功能测试、易用性测试(安装测试、功能易用性测试、用户界面测试、辅助系统测试)、兼容性测试、可靠性测试、文档测试、性能测试,强度测试等。  2.3.1.2 测试类型细化 ...
  • 需求分析常用方法

    千次阅读 2021-08-06 11:27:29
    解决用户的问题就需要进行需求分析,在上一篇文章《产品经理必备之如何进行需求分析》中我们将需求分析分成需求收集、需求分类、需求挖掘、需求分级四个阶段。 需求挖掘,又可理解为需求深挖、需求思考、需求评估等...
  • 文章目录研究目的:精准营销研究内容:客户分类维度数据获取与处理设计调查问卷及确定调研计划数据处理数据分析架构客户细分目标客户选择目标客户定位数据分析与输出结果确定分类维度分类维度的消减适应性检验因子...
  • 大数据分析方法有几种?

    千次阅读 2020-10-30 16:38:36
     大数据分析方法如下: 一、数字和趋势    看数字、看趋势是最基础进行展示相关数据管理信息的方式。在数据分析中,教师可以同时通过直观的数字或趋势图表,迅速发展了解例如市场的走势、订单的数量、业绩完成的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,097,530
精华内容 439,012
热门标签
关键字:

对客户信息进行分析的方法

友情链接: eg0816.rar