用户画像_用户画像构建 - CSDN
用户画像 订阅
用户画像,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。用户画像最初是在电商领域得到应用的,在大数据时代背景下,用户信息充斥在网络中,将用户的每个具体信息抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。 展开全文
用户画像,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。用户画像最初是在电商领域得到应用的,在大数据时代背景下,用户信息充斥在网络中,将用户的每个具体信息抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。
信息
外文名
Persona
中文名
用户画像
用户画像什么是用户画像
用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。我们在实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待的数据转化联结起来。作为实际用户的虚拟代表,用户画像所形成的用户角色并不是脱离产品和市场之外所构建出来的,形成的用户角色需要有代表性能代表产品的主要受众和目标群体。
收起全文
精华内容
参与话题
  • 用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。我们在实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待联结起来...
  • 用户画像

    万次阅读 2017-08-18 11:02:05
    用户画像:通过算法聚合成一类实现用户信息标签化。 构建用户画像用户画像信息:基本属性,购买能力,行为特征,兴趣爱好,心理特征,社交网络 ② 行为建模:文本挖掘,自然语言处理,机器学习,预测算法,...

    用户画像:通过算法聚合成一类实现用户信息标签化。

    构建用户画像

    ① 用户画像信息:基本属性,购买能力,行为特征,兴趣爱好,心理特征,社交网络
    ② 行为建模:文本挖掘,自然语言处理,机器学习,预测算法,聚类算法
    ③ 数据收集:网络日志数据,用户行为数据,网站交易数据
    作用:了解用户的行为习惯,个性化营销及精准广告
    静态数据来源:
    —来源于用户填的个人信息,及算法模型预测的数据
    动态信息数据:
    --用户行为产生的数据:注册,浏览,点击,购买,签收,评价,退货等
    —比较重要的行为:购买商品,浏览商品,放入购物车,关注商品等
    根据行为可以得出标签:
    潮妈族,纠结商品,最大消费,退货数量,败家指数,品牌偏好,用户活跃度等

    确定标签与根据算法猜测的标签

    —确定的标签:比如用户购买了或者收藏了某个商品等
    —猜测的标签:比如用户的性别,是男性的概率0.8,另外还有很多模型:孕妇模型,潜在汽车用户模型,用户价值模型
    比如:用户活跃度(活跃,沉睡,流失,未购买)
    用户分群:电脑达人,数码潮人,家庭用户,网购达人,奶爸奶妈,单身贵族,闪购用户,时尚男女等

    用户画像建模:

    1,客户消费订单表:

    --根据用户消费的情况来提取的客户标签,用以了解用户的消费情况,消费习惯
    客户消费订单表标签:
    购买信息:客户ID,第一次消费时间,最近一次消费时间,首单距今时间,尾单距今时间,近30/60/90天购买次数/购买金额(不含退拒),最大/最小消费金额,累计消费次数/金额(不含退拒)
    累计使用代金券金额,客单价(含退拒),常用收货地区,常用支付方式,退货商品数量,退货商品金额,拒收商品金额/数量,最近一次退货时间,各地点下单总数/总额,上下午下单总数/总额
    购物车信息:最近30天购物车商品件数/提交商品件数/购物车成功率/购物车放弃件数

    提取标签的作用:
    确定用户什么时候来的,多久没来了:第一次消费时间,最近一次消费时间,首单距今时间,尾单距今时间
    最近消费能力:近30天购买次数(不含退拒),近30购买金额(不含退拒),近30天购买次数(含退拒),近30天购买金额(含退拒)
    总体的消费情况:最小/大消费金额(可做个性化商品推荐),累计消费次数(不含退拒,可以计算客单价),累计消费金额,累计使用代金券金额(代金券爱好)
    消费属性:常用收货地区,常用支付方式
    购物车习惯:最近30天购物车次数,最近30天购物车提交商品件数,最近30天购物车商品件数,最近30天购物车放弃件数,最近30天购物车成功率
    退货和习惯特征:退货商品数量,拒收商品数量,退货商品金额,拒收商品金额,最近一次退货时间
    用户购物时间及地点习惯:各下单地点总数,各时间段下单总数

    2,客户购买类目表

    —根据客户购买类目的情况提取的客户标签,用以了解类目的购买人群情况
    客户购买表标签:
    客户ID,一级/二级/三级分类ID/名称,近30天/90天/180天购买类目次数/金额,累计购买类目次数/金额,累计购买类目次数/金额,近30天/90天/180天购物车某类目次数/金额,累计购买类目次数/金额,累计购物车类目次数/金额,最后一次购买类目时间/距今天数

    3,客户购买商店表:

    --根据客户购买商店的情况提取的客户标签,用以了解商店及品牌的购买人群(做品牌营销等)
    客户购买 商店表标签:
    用户ID,商店ID/名称,品牌ID/名称,最近30天购物车次数/商品件数/提交商品件数/成功率/放弃件数,最后一次购物车时间,最近90天商品排除退拒商品件数/金额,最近90天货到付款订单数,最近90天退换件数/金额,最近90天拒收件数/金额.

    4,客户基本属性

    --根据客户所填的属性标签与推算出来的标签,用以了解用户的基本属性(可用以个性营销,生日营销,星座营销等)
    客户基本属性标签:
    客户ID,客户登录名,性别,生日,年龄,星座,大区域,省份,城市,城市等级,邮箱,邮箱运营商,加密手机,手机运营商,注册时间,登录ip地址,登录来源,邀请人,会员积分,已使用积分,会员等级名称,婚姻状况,学历,月收入,职业,性别模型,是否孕妇,是否有小孩,孩子性别及年龄概率,是否有车,潜在汽车用户概率,使用手机品牌/档次,用户忠诚度,用户购物类型,身材,身高
    数据来源:用户表,用户调查表,孕妇模型表,马甲模型表,用户价值模型表等
    根据算法得出的标签:
    —性别模型:用以推算用户的购买用品的性别倾向(不一定是真实性别)

    性别模型:
    用户性别:1男,0女,-1未识别  | 1,商品性别得分,2,用户购买商品性别得分。
    孩子性别:0仅有男孩,1仅有女孩,2,男女均匀,3,无法识别 |1,选择男童女童商品等
    -性别验证:
    .随机抽样调查
    .与用户填写性恶爆匹配。

    用户购物模型:

     两种归类:
     用户购物类型:1,购物冲动型,2海淘犹豫型 3理性比较型 4 目标明确型 5 未识别。
     构建:1,计算用户在对三级品类购物前流量时间和浏览sku数量;2,kmeans聚类。

    用户忠诚度模型:

    用户忠诚度:1 忠诚型用户 2 偶尔型用户 3 投资型用户 3 浏览型用户 5 未识别
    构建:1,只浏览不购买,2购买天数大于一定天数 3,购买天数小于一定天数,大部分只有优惠彩购买 等
    5,客户营销信息表:

    —将用户营销相关的常用标签放到一张表中,方便使用

    客户营销信息表:
    客户ID,营销手机号,第一个有效订单来源/地址/手机号,常用的手机号,常用的收货地址,不同收货地址的数量,客户分群,活跃状态,用户价值(重要,保持,流失等),纠结商品,纠结小时
    主要来源表:
    用户表,订单表,活动表,购物车表,客户品类分群模型,用户价值模型
    客户活跃状态模型:

    客户一般的活跃状态:
    1.注册未购买(只注册未购买,多事第三方登录) 
    2.活跃(可以细分为高频,中频,低频)
    3.沉睡(近90天无购买,近60天无购买)
    4.流失  (近90天无购买,曾经购买)

    用户价值模型

    - 体现用户对网站的价值对提供用户留存率非常有帮助
    - 使用RFM实现用户价值模型参考指标
       - 最近一次消费时间(Recency)
       - 消费频率(Frequency)
       - 消费金额(Monetary)
      -RFM 实现用户价值模型计算方法
        -使用指标:租金一次购买时间,近180天购买订单量,近180天购买金额,分N段进行RFM分数计算
        - 算出Recency_score,Frequency_score,Monetary_score,然后划分用户群

    用户价值分类
    6,客户活动信息表:

    --根据客户参与活动的情况提取的客户标签,用于了解用户对活动的参与情况,以进行活动的策划
    客户活动信息表内容标签:
    客户ID,用户促销明个度,满减促销敏感度,打折促销敏感度,换购促销敏感度,满赠促销敏感度,购买力分段,品牌偏好,品类偏好,颜色偏好,败家偏好,冲动偏好,累计积分,已用积分,可以积分,累计代金券数量/金额,已用代金券数量/金额,过期代金券数量/金额,可用代金券数量/金额

    标签作用:
    确定用户喜欢那种活动类型:用户促销敏感度,满减促销敏感度,满赠敏感度,打折促销敏感度,换购促销敏感度,团购促销敏感度等

    促销敏感度模型:
    --根据用户购买的活动类型订单数与金额数已判断其属于哪类人群


    促销明个度模型

    用户有什么偏好:店铺偏好,品牌偏好,品类偏好,颜色偏好
    用户指数:购买力分段,败家指数,冲动指数
    用户购买力高中低模型:
    —从购物车,客单价来判断
    用户购买力高中低端模型:

    1,从购物车来判断
    2,从客单价来判断

    指数模型:

    -败家指数
      - 使用购买特征山炮数量来识别(刚出的苹果产品,奢侈品)
      - 结合用户的订单金额。
    -冲动指数
       - 使用特征商品(同品类价格较高商品)平均购物车停留时间
       - 结合特征商品(同品类价格较高商品)的购买数量
    7,客户访问信息表
    --根据客户访问的情况提取的客户标签以了解访问习惯

    客户访问信息标签:
    最近一次/第一次pc端访问日期/session/cookies/pv/使用浏览器/操作系统/,最近一次/ 第一次app端访问日期/操作系统,最近一次/第一次访问ip/访问城市/省份,近7天/15天/30天/60天/90天app端/pc端访问次数,近30天pc端/app端访问天数/访问并购买次数/访问pv/访问评价pv/ip数/,app及pc端各时间段访问的次数




    展开全文
  • 用户画像解析

    万次阅读 2019-02-28 22:26:05
    用户画像是大数据行业言必及之的时髦概念。现在我们运营谈及用户画像,它也是和精准营销、精细化运营直接钩挂的。这篇文章主要讲产品和运营角度的用户画像。 一、什么是用户画像 用户画像一点也不神秘,它是根据...

     

          用户画像是大数据行业言必及之的时髦概念。现在我们运营谈及用户画像,它也是和精准营销、精细化运营直接钩挂的。这篇文章主要讲产品和运营角度的用户画像。

      一、什么是用户画像

    用户画像一点也不神秘,它是根据用户在互联网留下的种种数据,主动或被动地收集,最后加工成一系列的标签。比如猜用户是男是女,哪里人,工资多少,有没有谈恋爱,喜欢什么,准备剁手购物吗?

    我们常把用户标签和用户画像对等。但凡用户画像的文章,类似上文图片都会出现,有用烂的趋势。标签化是最直观的解释,但它不等于用户画像。

    用户画像的正式名称是User Profile,大家往往把它和User Persona混淆,后者更恰当的名字是用户角色。是产品设计和用户调研的一种方式方法。当我们讨论产品、需求、场景、用户体验的时候,往往需要将焦点聚集在某类人群上,用户角色便是一种抽象的方法,是目标用户的集合。

    用户角色不指代具体的谁。「她是一位25岁的白领,211大学毕业,现在从事于互联网行业的设计工作,居住在北京。单身,平时喜爱摇滚乐」,这段话语,常用来描述产品的典型用户。

    本文谈的User Profile,更多是运营和数据息息相关的平台级应用,本质是对任何一个用户都能用标签和数据描述。

    二、用户画像的应用

    它在企业迈大迈强的过程中有举足轻重的作用。以下是主要的应用。

    精准营销:这是运营最熟悉的玩法,从粗放式到精细化,将用户群体切割成更细的粒度,辅以短信、推送、邮件、活动等手段,驱以关怀、挽回、激励等策略。

    数据应用:用户画像是很多数据产品的基础,诸如耳熟能详的推荐系统广告系统。操作过各大广告投放系统的同学想必都清楚,广告投放基于一系列人口统计相关的标签,性别、年龄、学历、兴趣偏好、手机等等。

    用户分析:虽然和Persona不一样,用户画像也是了解用户的必要补充。产品早期,PM们通过用户调研和访谈的形式了解用户。在产品用户量扩大后,调研的效用降低,这时候会辅以用户画像配合研究。新增的用户有什么特征,核心用户的属性是否变化等等。

    数据分析:这个就不用多提了,用户画像可以理解为业务层面的数据仓库,各类标签是多维分析的天然要素。数据查询平台会和这些数据打通。

    对大部分产品,用户画像用不到推荐系统,个性化推荐也提高不了几个利润,毕竟它需要大量的用户和数据作支撑。所以这些产品,更适合以用户画像为基础去驱动业务。

    提了那么多好处,但是据我了解,不少公司,花了一大笔钱招了不少人建设用户画像系统,结果用不起来。或者做了一份用户画像的报告,性别用户地理位置用户消费金额,看上去挺高大上的,看完也就看完了。

    归根结底,难以用好。

    很多用户画像初衷是好的,但是沦为了形式主义。

    举身边的例子,朋友在公司建立用户画像划分了百来个维度。用户消费、属性、行为无所不包。本来这不错啊,但是上线后运营看着这个干瞪眼。

    问题包含但不限于,用户有那么多维度,怎么合理地选择标签?我想定义用户的层级,VIP用户应该累积消费金额超过多少?是在什么时间窗口内?为什么选择这几个标准?后续应该怎么维护和监控?业务发生变化了这个标签要不要改?

    设立好标签,怎么验证用户画像的有效性?我怎么知道这套系统成功了呢?效果不佳怎么办?它有没有更多的应用场景?

    策略的执行也是一个纠结的问题。从岗位的执行看,运营背负着KPI。当月底KPI完不成时,你觉得他们更喜欢选择全量运营,还是精细化呢?

    我想不少公司都存在这样类似情况:使用过用户画像一段时间后,发现也就那么一回事,也就渐渐不再使用。

    这是用户画像在业务层面遇到老大难的问题。虽然企业自称建立用户画像,应用还是挺粗糙的。

    三、怎样深入理解用户画像

    画虎不全反类汪,想要用好它,首先得深入理解用户画像。

    现在运营按用户生命周期设立了几个标签,比如新用户、活跃用户、流失用户,这些标签当然够细分。但它真的是一个好标签么?不是。

    因为这些都是滞后性的。按流失用户的一般定义,往往是用户很长一段时间没有回应和行动,但是都几个月没有响应了,哪怕知道是流失用户也于事无补。它有价值,但太滞后。

    聪明的运营会设立一个新的标签,最近一次活跃距今天数,用户有六个月没有活跃,那么天数就是180天。这个比单纯的流失用户标签好,能凭此划分不同的距今天数,设立30天,90天,180天的时间节点。

    距今天数也不是最好的。用户有差异,同样两个用户A和B,哪怕不活跃天数相同,我也不能认为它们的流失可能性相等。该问题在低频场景更凸显,旅游APP,半年没有活跃也是正常的,此时距今天数力有未逮。

    回过头看流失用户,我们定义它,不是为了设立一个高大上的系统。任何企业,肯定一开始就希望流失用户越少越好,其次才是如何挽回。这种业务前提下,预防性的减少流失用户比已经流失的标签更重要。

    所以最好的标签的标签是用户流失概率,流失概率>距今消费天数>流失标签。

    不要想当然的归纳一个齐全完备的体系,却忽略了画像的核心价值。用户画像首先得是商业目的下的用户标签集合。

    猜用户是男是女,哪里人,工资多少,有没有谈恋爱,喜欢什么,准备剁手购物吗?探讨这些是没有意义的。是男是女如何影响消费决策,工资多少影响消费能力,有没有谈恋爱会否带来新的营销场景,剁手购物怎么精准推荐,这些才是用户画像背后的逻辑。

    不是我有了用户画像,便能驱动和提高业务。而是为了驱动和提高业务,才需要用户画像。这是很容易犯的错误。

    用户画像的标签一般通过两种形式获得,基于已有数据或者一定规则加工,流失标签和距今天数皆是。另外一种是基于已有的数据计算概率模型,会用到机器学习和数据挖掘。

    概率是介于0~1之间的数值。拿性别举例,除非能直接获取用户的身份证信息,用户很少会填写性别,填写的性别也不一定准确,网游中性别为女的扣脚大汉一抓一大把呢。

    这里就要增加一层推断用户真实性别的算法。中国人的性别和名字是强相关,建国建军,翠花翠兰,很容易判断。算法中常用贝叶斯,通过已有的姓名性别库预测新加入的用户性别。

    特殊情况下,不少姓名是中性,男女不辩。像晓晶,可男可女。更特殊的情况,看上去是男性的名字,也有可能是女性,我的初中老师就叫建军,然而是个和蔼可亲的小姐姐。

    特殊情况意味着特殊的概率,所以不能用非此即彼的二分法。所谓概率,它更习惯告诉你,通过模型推断,建军有95%的可能是男性姓名,表示为0.95;晓晶有55%的可能是男性,表示为0.55。

    虽然为了方便,模型会设立阈值,将50%以上的概率默认为男性,以下默认为女性。但业务部门的同学要清楚,用户标签的本质往往是0~1之间的概率。

    概率型的标签很难验证。某位用户被标上学生标签,要么真的哄他上传学籍证明,否则很难知道他是不是真的学生。这种黑箱情况下,针对学生用户进行营销活动,效果好与不好,都受标签准确率的影响。广告、推荐、精准营销都会遇到这个问题。

    概率肯定有多有少。90%流失概率的用户,和30%流失概率的用户,虽然是模型建立出的预测值,非真实,我们还是会认为前者更有离开的可能性,凭此设立运营策略。

    这带来一个新的问题,如何选择概率的阈值?

    我们想要挽回流失用户,选择80%以上概率的人群,还是60%呢?答案已经说过了,要考虑业务,挽回流失用户是手段不是目的,实际目的是通过挽回流失用户提高利润,那么阈值的选择迎刃而解。计算不同阈值下,挽回用户的收入和成本,选择最优解。

    推而广之,推荐系统也好,广告系统也罢,它们有更复杂的维度、标签、特征,本质也是找出用户最近想不想买车,用户最近想不想旅游。把最合适的信息在最恰当时机推给用户,获取最大的利益。

    我列举的案例,是简化过的。像姓名,在电商和消费行业,除了生理上的性别,还会建立消费模型上的性别标签,有些人虽然是男性,但购物行为是女性,这是要区分的。

    看到这里别怕,想要建好用户画像,说简单不简单,说难也不难。

    四、如何建立正确的用户画像

    用户画像首先是基于业务模型的。业务部门连业务模型都没有想好,数据部门只能巧妇难为无米之炊。数据部门也别关门造车,这和做产品一样,连用户需求都没有理解透彻,匆匆忙忙上线一个APP,结果无人问津。

    理解消费者的决策,考虑业务场景,考虑业务形态,考虑业务部门的需求…这些概念说得很虚,但是一个好的用户画像离不开它们。本文没有说数据、模型和算法,是我认为,它们比技术层面更重要。

    我们从一个故事开始设立用户画像吧。

    老王是一家互联网创业公司的核心人员,产品主营绿色健康沙拉,老王和绿色比较搭嘛。这家公司推出了APP专卖各式各样的沙拉,现在需要建立用户画像指导运营。

    公司现阶段在业务层面,更关注营销和销售:如何将沙拉卖得更好。下图是老王简单梳理的运营流程。

    老王将顾客按是否购买过沙拉,划分成潜在用户和新客。潜在用户是注册过APP但还没有下单,新客是只购买过一次沙拉的用户,除此以外还有老客,即消费了两次及以上的人群。

    为了便于大家理解,我用JSON格式表示一个简易的用户画像。

    为什么独立出新客标签?因为老王的沙拉针对未消费用户会有新人红包引导消费,万事开头难。这也带来新客一次后不再消费的问题,所以需要潜在、新客、老客的划分。

    作为一个有追求的运营人员,划分老客也是不够,这里继续用户分层。

    传统的分层用RFM三个维度衡量,沙拉的客单价比较固定,F和M取一个就够用了。老王现在计算不同消费档次的用户留存度差异,譬如某时间段内消费达XX元的用户,在未来时间段是否依旧消费。

    沙拉这类餐饮是高频消费,XX应该选择一个较窄的时间窗口,统计365天内的消费意义不大。还有一点需要注意的是,沙拉不同季节的销量是有差异的,冬天沙拉肯定卖的不如夏天,要综合考虑消费分布。

    这里姑且定义,30天内消费200元以上为VIP用户。老王的生意如果特别好,也可以继续划分超级VIP。这种标签往往配合业务,譬如VIP有赠送饮料,优先配送的权益。非VIP人群,也需要激励往VIP发展。

    画像的人口统计属性,老王靠用户填写订单上的收货人姓名搞定。籍贯年龄这几个,对沙拉生意没有特别大的帮助,难道为四川籍用户提高麻辣沙拉?

    用户地址,可以通过收货地设立规则判断,比如某个地址出现X次,可以将其认为常用地地址。再依据送货地在写字楼还是学校,推算用户是白领还是学生。

    老王针对不同属性的人群,采取了特殊的运营策略。像学生群体,因为7,8月份是暑假,所以老王提前预估到校园地区的销售额下降。当9月开学季,又能对返校学生进行召回。

    白领相关的群体,更关注消费体验,对价格敏感是次要的。如果平台女用户的消费占比高,老王就主打减肥功能的沙拉,并且以包月套餐的形式提高销量。

    以一家沙拉店来看,老王的用户画像已经不错了,但他还是焦头烂额,因为用户流失率开始上升。用户流失有各种各样的原因:对手老李沙拉的竞争、沙拉的口味、用户觉得性价比不高、老王不够帅等。

    流失是一个老大难的预测问题。老王对流失用户的定义是30天没有消费。想要准确预测,这里得尝试用机器学习建模,技术方面先这里略过。所谓建模,最好要找到用户开始不消费的时间点之前的关键因素,可是是行为,可以是属性。

    用户历史窗口内消费金额少,有可能流失;用户历史窗口内消费频次低,有可能流失;用户历史窗口内打开APP次数少,有可能流失;用户给过差评,有可能流失;用户等餐时间长,有可能流失;用户的性别差异,有可能流失;餐饮的季度因素,有可能流失…

    老王依据业务,挑选了可能影响业务的特征,提交给数据组尝试预测流失。需要注意的是,这些用户行为不能反应真实的情况。大家不妨想一下,流失用户的行为,是不是一个动态的变化过程?

    我曾经消费过很多次,但是突然吃腻了,于是减少消费次数,再之后不怎么消费,最终流失。单位时间段内的消费忠诚度是梯度下降的,为了更好的描述变化过程,将时间窗口细分成多个等距段。前30~20天、前20~10天、前10天内,这种切分比前30天内可以更好地表达下降趋势,也更好的预测流失。

    从老王的思路看,所谓流失,可以通过用户行为的细节预判。机器学习的建模虽然依赖统计手段,也离不开业务洞察。这里再次证明,用户画像建立在业务模型上。

    流失概率解决了老王的心头之患,通过提前发现降低流失用户。挽回流失推行一段时间后,老王发现虽然流失用户减少了,但是成本提高了,因为挽回用户也是要花钱的呀。亏本可不行,老王心头又生一计,他只挽回有价值的,那种拿了红包才消费的用户老王他不要了!老王要的是真爱粉。于是他配合消费档次区别对待,虽然流失用户的数量没有控制好,但是利润提高了。

    上述的用户画像,没有一个标签脱离于业务之外。基于业务场景,我们还能想象很多用户画像的玩法。沙拉有不同的口味,蔬果鸡肉海鲜。用户的口味偏好,可以用矩阵分解、模糊聚类或者多分类的问题计算,也以0~1之间的数字表示喜好程度,相似的,还有价格偏好,即价格敏感度。

    再深入想一下业务场景,如果某个办公地点,每天都有五六笔的订单,分属不同的客户不同的时间段,外卖小哥得送个五六次,对人力成本是多大的浪费呀。运营可以在后台分析相关的数据,以团购或拼单的形式,促成订单合并,或许销售额的利润会下降,但是外卖的人力成本也节约了。这也是用画像作为数据分析的依据。

    老王的运营故事说完了,现在对用户画像的建立有一套想法了吧。

    五、用户画像的架构

    不同业务的画像标签体系并不一致,这需要数据和运营目的性的提炼。

    用户画像一般按业务属性划分多个类别模块。除了常见的人口统计,社会属性外。还有用户消费画像,用户行为画像,用户兴趣画像等。具体的画像得看产品形态,像金融领域,还会有风险画像,包括征信、违约、洗钱、还款能力、保险黑名单等。电商领域会有商品的类目偏好、品类偏好、品牌偏好,不一而足。

    上图是随手画的的例子,画一个架构不难,难得是了解每个标签背后的业务逻辑和落地方式,至于算法,又能单独扯很多文章了。

    从数据流向和加工看,用户画像包含上下级递进关系。

    以上文的流失系数举例,它通过建模,其依赖于用户早期的历史行为。而用户早期的历史行为,即10天内的消费金额、消费次数、登录次数等,本身也是一个标签,它们是通过原始的明细数据获得。

    上图列举了标签加工和计算的过程,很好理解。最上层的策略标签,是针对业务的落地,运营人员通过多个标签的组合形成一个用户群组,方便执行。

    公司越大,用户画像越复杂。某家主打内容分发的公司进入了全新的视频领域,现在有两款APP,那么用户画像的结构也需要改变。既有内容相关的标签,也有视频相关的标签,两者是并行且关联的。

    比如A用户在内容标签下是重度使用,而在视频标签下是轻度。比如B用户很久没打开内容APP有流失风险,但在视频APP的使用时长上看很忠诚。如此种种,看的是灵活应用。当然,姓名性别这类人口统计标签,是通用的。

    用户画像作为平台级的应用,很多运营策略及工具,都是在其基础上构建的。

    基于营销和消费相关的标签,新客、老客、用户的流失和忠诚、用户的消费水平和频率等,都是构成CRM(客户关系管理)的基础,可能大家更习惯叫它用户/会员管理运营平台。

    它的作用在于,将数据化的标签,转换成产品运营策略。不同的标签对应不同的用户群体,也对应不同的营销手段。CRM的结构中会包含各类触达用户的常用渠道比如短信、邮件、推送等。也包含CMS(内容管理系统),执行人员通过其快速配置活动页、活动通道、优惠券等,靠营销活动拉动数据。

    老王的沙拉业务要是做大,那么运营平台就会以图中的结构搭建。老王在CRM中组合标签,新客老客流失客的数据借助BI监控,然后通过CMS系统配置红包啊优惠券啊等等,再通过短或Push触达。

    好的用户画像系统,既是数据生态体系,也是业务和运营的生态体系,它是一门复杂的交叉领域。因为篇幅有限,算法,数据产品没有更多的涉及,以后有机会再讲吧。核心思想希望大家能吃透。若有吐槽和疑问欢迎留言。

    万千用法,存乎一心。

    —— 转自秦璐

     

    展开全文
  • 用户画像-构建步骤

    千次阅读 2017-09-01 10:11:30
    有一句话是,千万人撩你,不如一人懂你,这句话在互联网圈可以说成是,真正的了解用户,才能得到用户,所以,用户画像的重要性不言而喻。 什么是用户画像用户画像可以简单理解成是海量数据的标签,根据用户...

    有一句话是,千万人撩你,不如一人懂你,这句话在互联网圈可以说成是,真正的了解用户,才能得到用户,所以,用户画像的重要性不言而喻。

    什么是用户画像?

    用户画像可以简单理解成是海量数据的标签,根据用户的目标、行为和观点的差异,将他们区分为不同的类型,然后每种类型中抽取出典型特征,赋予名字、照片、一些人口统计学要素、场景等描述,形成了一个人物原型 (personas)。

    企业在进行营销时会遇到的问题

    如何进行产品的定位、如何去优化用户的体验、如何进行广告的精准投放,以及衡量我们的用户价值的大小等等,这类问题的解决需要结合受众群体的需求特性以及行为组合,去优化自身产品的调整策略。

    然而

    用户画像才是解决问题的基础,用户画像能帮助广告主找到对的人

    了解广告营销的人都知道,确定目标受众是营销的第一步,如果说传统线下广告还可以根据不同场合大概确定一个人的社会背景,然而,在互联网这个虚拟世界中,隐藏在幕后的用户拥有太多可能性,因此在互联网营销逐渐占据主流的时代,互联网产品或服务的人群画像愈加重要。

    Step1:准确识别用户

    微博/微信/QQ等第三方登录成企业识别用户的折中选择

    用户识别的目的是为了区分用户、单点定位。用户识别的方式有很多种,如cookie、注册ID、邮箱、微信/微博/QQ等第三方登录、手机号等,这些都是互联网用户相对于传统线下渠道所特有的身份标识,其中手机号是目前移动端最为准确的用户标识,但随着用户的注册意愿越来越低,微博/微信/QQ等第三方登录成为越来越多企业的折中选择。

    Step2:动态跟踪用户行为轨迹

    三大维度:场景+媒体+路径

    动态行为数据可以确认用户不同场景下的不同访问轨迹,助力广告主跨端控频营销。

    用户网络行为动态跟踪主要包括三个维度:场景+媒体+路径,应用到互联网中,场景主要包括访问设备、访问时段,媒体指某一时段下用户具体访问的媒体,如资讯类、视频类、游戏类、社交类等,路径指用户进入和离开某媒体的路径,可以简单理解为用户的站内与站外行为,如是通过搜索导航进入还是直接打开该APP,离开时是站内跳转到其他网页还是直接关闭,一方面有助于媒体自身优化流量运营,另一方面帮助广告主有效控制不同页面的投放频次,避免产生用户倦怠。

    Step3:结合静态数据评估用户价值

    五大维度:人口属性+商业属性+消费特征+生活形态+CRM

    静态数据获取后,需要对人群进行因子和聚类分析,不同的目的分类依据不同:如对于产品设计来说,按照使用动机或使用行为划分是最为常见的方式,而对于营销类媒体来说,依据消费形态来区分人群是最为直接的分类方式。

    静态数据主要包括用户的人口属性、商业属性、消费特征、生活形态、CRM五大维度,其获取方式存在多种,数据挖掘是最为常见也是较为精准的一种方式,如果数据有限,则需要定性与定量结合补充,定性方法如小组座谈会、用户深访、日志法、Laddering 阶梯法、透射法等,主要是通过开放性的问题潜入用户真实的心理需求,具象用户特征,定量更多是通过定量问卷调研的方式进行,关键在于后期定量数据的建模与分析,目的是通过封闭性问题一方面对定性假设进行验证,另一方面获取市场的用户分布规律。

    Step4:用户标签定义与权重

    从繁杂的数据中抽取共同的特征值

    根据特征值对群体进行定义,有助于广告主一目了然掌握该群体的特性,如“时尚小咖”,可以快速的联想到针对这类人,时尚感至关重要,即产品的设计感、外观等,并且小咖两字表明该类人并不盲目追求潮流,他们有自己的审美观,并且能够影响身边的人。

    同时,一个群体会有多个标签,不同的群体之间也会有标签的重合,此时标签的权重反映了不同群体的核心特征。如“时尚小咖”和“科技先锋”两类人群中都有女性标签,此时需要比较女性在不同人群中的标签权重,以决定将该标签解读给哪类群体。通常,一个好的用户画像,不同人群之间的标签重合度较小,只有在那些权重较小的标签上会有些许重合。

    Step5:不同人群优先级排列

    根据企业自身情况排列不同组合

    目前,大部分画像只完成上述4步就结束了,然而最后一步决定了最终效果的落地,对于广告主来说可以理解为媒介的组合策略。组合策略可以按照频率的高低、市场的大小、收益的潜力、竞争优势等,根据企业自身情况排列不同组合。

    如:品牌刚刚建立,需要快速提升知名度,可以按照不同媒体目标人群覆盖率的高低进行预算分配;当品牌具备一定知名度,企业核心领域营收处于快速增长期时,可以按照不同媒体目标人群贡献的市场大小进行分配;当企业想开拓新市场时,可以按照不同媒体目标人群的收益潜力进行分配,另外如企业品牌需增强差异化的竞争优势时,可按照不同媒体目标人群的竞争优势进行投放。

    我是艾瑞-用户画像关键示例的分界线

    A:某图片分享类媒体整体用户画像

    B:某图片分享类媒体细分用户特征

    C:某图片分享类媒体细分用户优先级排列

    艾瑞-用户画像服务过的行业展示:

    返回搜狐,查看更多

    展开全文
  • 这篇文章在宏观上很好地描述了用户画像的主要内容。(文章内的图片来源于不同帖子,侵删) 一、 什么是用户画像      &...

    这篇文章在宏观上很好地描述了用户画像的主要内容。(文章内的图片来源于不同帖子,侵删)

    一、 什么是用户画像

            用户画像是指根据用户的属性、偏好、生活习惯、行为等信息,抽象出来的标签化用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理。

    用户画像是对现实世界中用户的建模,用户画像包含目标,方式,组织,标准,验证这5个方面。

    目标:指的是描述人,认识人,了解人,理解人。

    方式:分为非形式化手段,如使用文字、语言、图像、视频等方式描述人;形式化手段,即使用数据的方式来刻画人物的画像。

    组织:指的是结构化、非结构化的组织形式。

    标准:指的是使用常识、共识、知识体系的渐进过程来刻画人物,认识了解用户。

    验证:依据侧重说明了用户画像应该来源事实、经得起推理和检验。

            在产品早期和发展期,会较多地借助用户画像,帮助产品人员理解用户的需求,想象用户使用的场景,产品设计从为所有人做产品变成为三四个人做产品,间接的降低复杂度。

    二、 用户画像的作用

    在互联网、电商领域用户画像常用来作为精准营销、推荐系统的基础性工作,其作用总体包括:

    (1)精准营销:根据历史用户特征,分析产品的潜在用户和用户的潜在需求,针对特定群体,利用短信、邮件等方式进行营销。

    (2)用户统计:根据用户的属性、行为特征对用户进行分类后,统计不同特征下的用户数量、分布;分析不同用户画像群体的分布特征。

    (3)数据挖掘:以用户画像为基础构建推荐系统、搜索引擎、广告投放系统,提升服务精准度。

    (4)服务产品:对产品进行用户画像,对产品进行受众分析,更透彻地理解用户使用产品的心理动机和行为习惯,完善产品运营,提升服务质量。

    (5)行业报告&用户研究:通过用户画像分析可以了解行业动态,比如人群消费习惯、消费偏好分析、不同地域品类消费差异分析

            根据用户画像的作用可以看出,用户画像的使用场景较多,用户画像可以用来挖掘用户兴趣、偏好、人口统计学特征,主要目的是提升营销精准度、推荐匹配度,终极目的是提升产品服务,起到提升企业利润。用户画像适合于各个产品周期:从新用户的引流到潜在用户的挖掘、从老用户的培养到流失用户的回流等。

            总结来说,用户画像必须从实际业务场景出发,解决实际的业务问题,之所以进行用户画像,要么是获取新用户,要么是提升用户体验、或者挽回流失用户等具有明确的业务目标。

            另外关于用户画像数据维度的问题,并不是说数据维度越丰富越好,总之,画像维度的设计同样需要紧跟业务实际情况进行开展。

     三、 用户画像的分类

            从画像方法来说,可以分为定性画像、定性+定量画像、定量画像

            从应用角度来看,可以分为行为画像、健康画像、企业信用画像、个人信用画像、静态产品画像、旋转设备画像、社会画像和经济画像等。

    四、 用户画像需要用到哪些数据

            一般来说,根据具体的业务内容,会有不同的数据,不同的业务目标,也会使用不同的数据。在互联网领域,用户画像数据可以包括以下内容:

    (1)人口属性:包括性别、年龄等人的基本信息

    (2)兴趣特征:浏览内容、收藏内容、阅读咨询、购买物品偏好等

    (3)消费特征:与消费相关的特征

    (4)位置特征:用户所处城市、所处居住区域、用户移动轨迹等

    (5)设备属性:使用的终端特征等

    (6)行为数据:访问时间、浏览路径等用户在网站的行为日志数据

    (7)社交数据:用户社交相关数据

            用户画像数据来源广泛,这些数据是全方位了解用户的基础,这里以Qunar的画像为例,其画像数据主要维度如下所示,包括用户RFM信息、航线信息等。

            Qunar的画像数据仓库构建都是基于Qunar基础数据仓库构建,然后按照维度进行划分。

    五、 用户画像主要应用场景

    a)用户属性

    b)用户标签画像

    c)用户偏好画像

    d)用户流失

    e)用户行为

    f)产品设计

    g) 个性化推荐、广告系统、活动营销、内容推荐、兴趣偏好

    六、 用户画像使用的技术方法

    七、 用户画像标签体系的建立

    1、什么是标签体系

            用户画像是对现实用户做的一个数学模型,在整个数学模型中,核心是怎么描述业务知识体系,而这个业务知识体系就是本体论,本体论很复杂,我们找到一个特别朴素的实现,就是标签。

            标签是某一种用户特征的符号表示。是一种内容组织方式,是一种关联性很强的关键字,能方便的帮助我们找到合适的内容及内容分类。(注:简单说,就是你把用户分到多少个类别里面去,这些类是什么,彼此之间有什么关系,就构成了标签体系

            标签解决的是描述(或命名)问题,但在实际应用中,还需要解决数据之间的关联,所以通常将标签作为一个体系来设计,以解决数据之间的关联问题。

            一般来说,将能关联到具体用户数据的标签,称为叶子标签。对叶子标签进行分类汇总的标签,称为父标签。父标签和叶子标签共同构成标签体系,但两者是相对概念。例如:下表中,地市、型号在标签体系中相对于省份、品牌,是叶子标签。

    一级标签

    二级标签

    三级标签

    四级标签

     

    		<p>移动属性</p>
    		</td>
    		<td>
    		<p>用户所在地</p>
    		</td>
    		<td>
    		<p>省份</p>
    		</td>
    		<td>
    		<p>地市</p>
    		</td>
    	</tr><tr><td>
    		<p>手机品牌</p>
    		</td>
    		<td>
    		<p>品牌</p>
    		</td>
    		<td>
    		<p>型号</p>
    		</td>
    	</tr><tr><td rowspan="4">
    		<p>&nbsp;</p>
    
    		<p>&nbsp;</p>
    
    		<p>业务属性</p>
    		</td>
    		<td rowspan="4">
    		<p>&nbsp;</p>
    
    		<p>&nbsp;</p>
    
    		<p>用户等级</p>
    		</td>
    		<td>
    		<p>普通</p>
    		</td>
    	</tr><tr><td>
    		<p>音乐普通会员</p>
    		</td>
    	</tr><tr><td>
    		<p>音乐高级会员</p>
    		</td>
    	</tr><tr><td>
    		<p>音乐VIP会员</p>
    		</td>
    	</tr></tbody></table><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;用户画像标签体系创建后一般要包含以下几个方面的内容</p>
    

    (1)标签分类

            用户画像标签可以分为基础属性标签和行为属性标签。

            由于基于一个目标的画像,其标签是在动态扩展的,所以其标签体系也没有统一的模板,在大分类上,与自身的业务特征有很大的关联,在整体思路上可以从横纵两个维度展开思考:横向是产品内数据和产品外数据,纵向是线上数据和线下数据。而正中间则是永恒不变的“人物基础属性”。

            如果说其他的分类因企业特征而定,那么只有人物特征属性(至于名字叫什么不重要,关键是内涵)是各家企业不能缺失的板块。

            所谓人物基础属性指的是:用户客观的属性而非用户自我表达的属性,也就是描述用户真实人口属性的标签。所谓非“自我表达”,举例来说,某产品内个人信息有性别一项,用户填写为“女”,而通过用户上传的身份证号,以及用户照片,用户购买的产品,甚至用户打来的客服电话,都发现该用户性别是“男性”。那么在人物基础属性中的性别,应该标识的是“男性”,但是用户信息标签部分,自我描述的性别则可能标注为女性。

    (2)标签级别(标签的体系结构)

            分级有两个层面的含义,其一是:指标到最低层级的涵盖的层级;其二是指:指标的运算层级。其一非常好理解,这里重点说运算层级。

            标签从运算层级角度可以分为三层:事实标签、模型标签、预测标签。

            事实标签:是通过对于原始数据库的数据进行统计分析而来的,比如用户投诉次数,是基于用户一段时间内实际投诉的行为做的统计。

            模型标签:模型标签是以事实标签为基础,通过构建事实标签与业务问题之间的模型,进行模型分析得到。比如,结合用户实际投诉次数、用户购买品类、用户支付的金额等,进行用户投诉倾向类型的识别,方便客服进行分类处理。

            预测标签:则是在模型的基础上做预测,比如针对投诉倾向类型结构的变化,预测平台舆情风险指数。

    (3)标签命名&赋值

            我们用一张图来说明一下命名和赋值的差别,只要在构建用户标签的过程种,有意识的区别标签命名和赋值足矣,不再赘述。

    (4)标签属性

            标签属性可以理解为针对标签进行的再标注,这一环节的工作主要目的是帮助内部理解标签赋值的来源,进而理解指标的含义。如图所示,可以总结为5种来源:

    1、固有属性:是指这些指标的赋值体现的是用户生而有之或者事实存在的,不以外界条件或者自身认知的改变而改变的属性。比如:性别、年龄、是否生育等。

    2、推导属性:由其他属性推导而来的属性,比如星座,我们可以通过用户的生日推导,比如用户的品类偏好,则可以通过日常购买来推导。

    3、行为属性:产品内外实际发生的行为被记录后形成的赋值,比如用户的登陆时间,页面停留时长等。

    4、态度属性:用户自我表达的态度和意愿。比如说我们通过一份问卷向用户询问一些问题,并形成标签,如询问用户:是否愿意结婚,是否喜欢某个品牌等。当然在大数据的需求背景下,利用问卷收集用户标签的方法效率显得过低,更多的是利用产品中相关的模块做了用户态度信息收集。

    5、测试属性:测试属性是指来自用户的态度表达,但并不是用户直接表达的内容,而是通过分析用户的表达,结构化处理后,得出的测试结论。比如,用户填答了一系列的态度问卷,推导出用户的价值观类型等。

            值得注意的是,一种标签的属性可以是多重的,比如:个人星座这个标签,既是固有属性,也是推导属性,它首先不以个人的意志为转移,同时可以通过身份证号推导而来。

            即便你成功了建立用户画像的标签体系,也不意味着你就开启了用户画像的成功之路,因为有很大的可能是这些标签根本无法获得,或者说无法赋值。

            标签无法赋值的原因有:数据无法采集(没有有效的渠道和方法采集到准确的数据,比如用户身份证号)、数据库不能打通、建模失败(预测指标无法获得赋值)等等。

     2、标签体系结构

            标签体系可以归纳出如下的层级结构。

    (1)原始输入层

            主要指用户的历史数据信息,如会员信息、消费信息、网络行为信息。经过数据的清洗,从而达到用户标签体系的事实层。

    (2)事实层

            事实层是用户信息的准确描述层,其最重要的特点是,可以从用户身上得到确定与肯定的验证。如用户的人口属性、性别、年龄、籍贯、会员信息等。

    (3)模型预测层

            通过利用统计建模,数据挖掘、机器学习的思想,对事实层的数据进行分析利用,从而得到描述用户更为深刻的信息。如通过建模分析,可以对用户的性别偏好进行预测,从而能对没有收集到性别数据的新用户进行预测。还可以通过建模与数据挖掘,使用聚类、关联思想,发现人群的聚集特征。

    (4)营销模型预测

            利用模型预测层结果,对不同用户群体,相同需求的客户,通过打标签,建立营销模型,从而分析用户的活跃度、忠诚度、流失度、影响力等可以用来进行营销的数据。

    (5)业务层

            业务层可以是展现层。它是业务逻辑的直接体现,如图中所表示的,有车一族、有房一族等。

    3、标签体系结构分类

            一般来说,设计一个标签体系有3种思路,分别是:(1)结构化标签体系;(2)半结构化标签体系;(3)非结构化标签体系。

    (1)结构化标签体系

            简单地说,就是标签组织成比较规整的树或森林,有明确的层级划分和父子关系。结构化标签体系看起来整洁,又比较好解释,在面向品牌广告井喷时比较好用。性别、年龄这类人口属性标签,是最典型的结构化体系。下图就是Yahoo!受众定向广告平台采用的结构化标签体系。

    (2)半结构化标签体系

            在用于效果广告时,标签设计的灵活性大大提高了。标签体系是不是规整,就不那么重要了,只要有效果就行。在这种思路下,用户标签往往是在行业上呈现出一定的并列体系,而各行业内的标签设计则以“逮住老鼠就是好猫”为最高指导原则,切不可拘泥于形式。下图是Bluekai聚合多家数据形成的半结构化标签体系。

    (3)非结构化标签体系

            非结构化,就是各个标签就事论事,各自反应各自的用户兴趣,彼此之间并无层级关系,也很难组织成规整的树状结构。非结构化标签的典型例子,是搜索广告里用的关键词。还有Facebook用的用户兴趣词。

     4、用户画像标签层级的建模方法

            用户画像的核心是标签的建立,用户画像标签建立的各个阶段使用的模型和算法如下图所示。

    原始数据层。对原始数据,我们主要使用文本挖掘的算法进行分析如常见的TF-IDF、TopicModel主题模型、LDA 等算法,主要是对原始数据的预处理和清洗,对用户数据的匹配和标识。

    事实标签层。通过文本挖掘的方法,我们从数据中尽可能多的提取事实数据信息,如人口属性信息,用户行为信息,消费信息等。其主要使用的算法是分类和聚类。分类主要用于预测新用户,信息不全的用户的信息,对用户进行预测分类。聚类主要用于分析挖掘出具有相同特征的群体信息,进行受众细分,市场细分。对于文本的特征数据,其主要使用相似度计算,如余弦夹角,欧式距离等。

    模型标签层。使用机器学习的方法,结合推荐算法。模型标签层完成对用户的标签建模与用户标识。其主要可以采用的算法有回归,决策树,支持向量机等。通过建模分析,我们可以进一步挖掘出用户的群体特征和个性权重特征,从而完善用户的价值衡量,服务满意度衡量等。

    预测层。也是标签体系中的营销模型预测层。这一层级利用预测算法,如机器学习中的监督学习,计量经济学中的回归预测,数学中的线性规划等方法。实习对用户的流失预测,忠实度预测,兴趣程度预测等等,从而实现精准营销,个性化和定制化服务。

    不同的标签层级会考虑使用对其适用的建模方法,对一些具体的问题,有专门的文章对其进行研究。

    八、 用户画像基本步骤[F2] 

            根据具体业务规则确定用户画像方向后,开展用户画像分析,总体来说,一个用户画像流程包括以下三步。(1)用户画像的基本方向;(2)用户数据收集;(3)用户标签建模。

            另外,需要注意的是用户画像的时效性,构建画像的数据多为历史数据,但用户的行为、偏好等特征多会随着时间的推移而发生变化。

    九、 用户画像验证

    十、 用户画像的实际例子

            注:此处涉及到工作中的项目内容,由于保密,就不能分享了

    十一、    用户画像平台&架构

    用户画像平台需要实现的功能。

            用户画像系统技术架构

    (1)    数据处理

    a、数据指标的梳理来源于各个系统日常积累的日志记录系统,通过sqoop导入hdfs,也可以用代码来实现,比如spark的jdbc连接传统数据库进行数据的cache。还有一种方式,可以通过将数据写入本地文件,然后通过sparksql的load或者hive的export等方式导入HDFS。

    b、通过hive编写UDF 或者hiveql根据业务逻辑拼接ETL,使用户对应上不同的用户标签数据(这里的指标可以理解为每个用户打上了相应的标签),生成相应的源表数据,以便于后续用户画像系统,通过不同的规则进行标签宽表的生成。

    (2)    数据平台

    a、数据平台应用的分布式文件系统为Hadoop的HDFS,因为Hadoop2.0以后,任何的大数据应用都可以通过ResoureManager申请资源,注册服务。比如(sparksubmit、hive)等等。而基于内存的计算框架的出现,就并不选用Hadoop的MapReduce了。当然很多离线处理的业务,很多人还是倾向于使用Hadoop,但是Hadoop封装的函数只有map和Reduce太过单一,而不像spark一类的计算框架有更多封装的函数(可参考博客spark专栏)。可以大大提升开发效率。

    b、计算的框架选用Spark以及RHadoop,这里Spark的主要用途有两种,一种是对于数据处理与上层应用所指定的规则的数据筛选过滤,(通过Scala编写spark代码提交至sparksubmit)。一种是服务于上层应用的SparkSQL(通过启动spark thriftserver与前台应用进行连接)。 RHadoop的应用主要在于对于标签数据的打分,比如利用协同过滤算法等各种推荐算法对数据进行各方面评分。

    c、MongoDB内存数据的应用主要在于对于单个用户的实时的查询,也是通过对spark数据梳理后的标签宽表进行数据格式转换(json格式)导入mongodb,前台应用可通过连接mongodb进行数据转换,从而进行单个标签的展现。(当然也可将数据转换为Redis中的key value形式,导入Redis集群)

    d、mysql的作用在于针对上层应用标签规则的存储,以及页面信息的展现。后台的数据宽表是与spark相关联,通过连接mysql随后cache元数据进行filter、select、map、reduce等对元数据信息的整理,再与真实存在于Hdfs的数据进行处理。

    (3)    面向应用

    从刚才的数据整理、数据平台的计算,都已经将服务于上层应用的标签大宽表生成。(用户所对应的各类标签信息)。那么前台根据业务逻辑,勾选不同的标签进行求和、剔除等操作,比如本月流量大于200M用户(标签)+本月消费超过100元用户(标签)进行和的操作,通过前台代码实现sql的拼接,进行客户数目的探索。这里就是通过jdbc的方式连接spark的thriftserver,通过集群进行HDFS上的大宽表的运算求count。(这里要注意一点,很多sql聚合函数以及多表关联join 相当于hadoop的mapreduce的shuffle,很容易造成内存溢出,相关参数调整可参考本博客spark栏目中的配置信息)这样便可以定位相应的客户数量,从而进行客户群、标签的分析,产品的策略匹配从而精准营销。

    十二、用户画像困难点、用户画像瓶颈

    用户画像困难点主要表现为以下4个方面

    资料搜集和数据挖掘

           在画像之前需要知道产品的用户特征和用户使用产品的行为等因素,从而从总体上掌握对用户需求需求

             创建用户画像不是抽离出典型进行单独标签化的过程,而是要融合边缘环境的相关信息来进行讨论

    定量调研分析

    用户标签画像

    我们的用户标签包含基本特征、社会身份、顾客用户生命周期、类目偏好等等。比如说你怎么判断一个人是不是对女装感兴趣,假设我们有一个类目就是女装,那很好办,如果你购买都是女装,那会认为你这个人对女装比较感兴趣。

    挑战

    我们期间遇到了两方面的挑战:

    亿级画像系统实践和应用

    记录和存储亿级用户的画像,支持和扩展不断增加的维度和偏好,毫秒级的更新,支撑个公司性化推荐、广告投放和精细化营销等产品。

    转自网络,感谢原作者

     

    这里讲解下用户画像的技术架构和整体实现,那么就从数据整理、数据平台、面向应用三个方面来讨论一个架构的实现(个人见解)。

    数据整理:

    1、数据指标的的梳理来源于各个系统日常积累的日志记录系统,通过sqoop导入hdfs,也可以用代码来实现,比如spark的jdbc连接传统数据库进行数据的cache。还有一种方式,可以通过将数据写入本地文件,然后通过sparksql的load或者hive的export等方式导入HDFS。

    2、通过hive编写UDF 或者hiveql 根据业务逻辑拼接ETL,使用户对应上不同的用户标签数据(这里的指标可以理解为为每个用户打上了相应的标签),生成相应的源表数据,以便于后续用户画像系统,通过不同的规则进行标签宽表的生成。

    数据平台

    1、数据平台应用的分布式文件系统为Hadoop的HDFS,因为Hadoop2.0以后,任何的大数据应用都可以通过ResoureManager申请资源,注册服务。比如(sparksubmit、hive)等等。而基于内存的计算框架的出现,就并不选用hadoop的MapReduce了。当然很多离线处理的业务,很多人还是倾向于使用Hadoop,但是hadoop的封装的函数只有map和Reduce太过单一,而不像spark一类的计算框架有更多封装的函数(可参考博客spark专栏)。可以大大提升开发效率。

    2、计算的框架选用Spark以及RHadoop,这里Spark的主要用途有两种,一种是对于数据处理与上层应用所指定的规则的数据筛选过滤,(通过Scala编写spark代码提交至sparksubmit)。一种是服务于上层应用的SparkSQL(通过启动spark thriftserver与前台应用进行连接)。 RHadoop的应用主要在于对于标签数据的打分,比如利用协同过滤算法等各种推荐算法对数据进行各方面评分。

    3、MongoDB内存数据的应用主要在于对于单个用户的实时的查询,也是通过对spark数据梳理后的标签宽表进行数据格式转换(json格式)导入mongodb,前台应用可通过连接mongodb进行数据转换,从而进行单个标签的展现。(当然也可将数据转换为Redis中的key value形式,导入Redis集群)

    4、mysql的作用在于针对上层应用标签规则的存储,以及页面信息的展现。后台的数据宽表是与spark相关联,通过连接mysql随后cache元数据进行filter,select,map,reduce等对元数据信息的整理,再与真实存在于Hdfs的数据进行处理。

    面向应用

    1、从刚才的数据整理、数据平台的计算,都已经将服务于上层应用的标签大宽表生成。(用户所对应的各类标签信息)。那么前台根据业务逻辑,勾选不同的标签进行求和、剔除等操作,比如本月流量大于200M用户(标签)+本月消费超过100元用户(标签)进行和的操作,通过前台代码实现sql的拼接,进行客户数目的探索。这里就是通过jdbc的方式连接spark的thriftserver,通过集群进行HDFS上的大宽表的运算求count。(这里要注意一点,很多sql聚合函数以及多表关联join 相当于hadoop的mapreduce的shuffle,很容易造成内存溢出,相关参数调整可参考本博客spark栏目中的配置信息) 这样便可以定位相应的客户数量,从而进行客户群、标签的分析,产品的策略匹配从而精准营销。

    展开全文
  • 什么是用户画像?该怎么分析?

    万次阅读 多人点赞 2018-07-03 01:12:04
    1、用户画像是什么 用户画像(User Profile),作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重要信息,提供了足够的数据基础,奠定了大数据时代的基石...
  • 用户画像系统概述

    千次阅读 2019-04-27 15:09:30
    1. 用户画像的概念 1.1 什么是用户画像用户画像是对现实世界中的用户的数学建模。 1.2 用户标签画像 用户标签画像是用标签标示方法来表示用户。 标签是某一种用户特征的符号表示; 用户画像是一个整体,各个维度...
  • 用户画像总结

    万次阅读 多人点赞 2018-03-28 14:45:51
    最近在工作之余,结合自己的理解和论坛上的一些帖子,整理了份用户画像的文章,个人觉得这篇文章在宏观上很好地描述了用户画像的主要内容。(文章内的图片来源于不同帖子,权当分享,侵删)一、 什么是用户画像 ...
  • 用户画像5步骤

    千次阅读 2018-11-30 19:16:43
    有一句话是,千万人撩你,不如一人懂你,这句话在互联网圈可以说成是,真正的了解用户,才能得到用户,所以,用户画像的重要性不言而喻。 什么是用户画像用户画像可以简单理解成是海量数据的标签,根据用户的...
  • 导读:用户画像将产品设计的焦点放在目标用户的动机和行为上,从而避免产品设计人员草率地代表用户。产品设计人员经常不自觉的把自己当作用户代表,根据自己的需求设计产品,导致无法...
  • 这一切都是精准化营销的常见套路。...以庞大的用户数据为依托,构建出一整套完善的用户画像,借助其标签化、信息化、可视化的属性,是企业实现个性化推荐、精准营销强有力的前提基础。 可见,深入了...
  • 用户画像 用户画像

    千次阅读 2019-03-12 19:52:51
    每天汇总出的用户画像表仅包含当天的数据,因此还需要和之前汇总好的用户画像表进行新的合并操作后,才算真正的最新数据的用户画像用户画像宽表 ADM层 adm.itcast_adm_personas(时间分区...
  • 利用Python搭建用户画像系统

    万次阅读 多人点赞 2017-08-30 16:32:50
    用户画像是当下很多企业都会提及的概念,多数情况下会和大数据以及营销挂钩。本文将对用户画像的相关知识进行进行简单的介绍,并利用Python去实现一个简单的用户画像系统。 1.什么是用户画像 用户画像可以理解成是...
  • 用户画像简介

    2020-06-15 15:49:21
    参考文章:推荐系统——用户画像 1. 用户画像 1.1 用户画像定义 用户画像:也叫用户信息标签化、客户标签;根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。从电商的角度看,根据你...
1 2 3 4 5 ... 20
收藏数 28,457
精华内容 11,382
关键字:

用户画像