精华内容
下载资源
问答
  • 干货,如何建立数据标签体系

    千次阅读 2021-01-15 07:03:00
    公众号推文规则变了,点击上方"数据社"关注,设为星标后台回复【加群】,申请加入数据学习交流群大家好,我是一哥,今天给大家分享一篇标签体系如何建设的干货文章,欢迎转发收...

    公众号推文规则变了,点击上方 "数据社"关注, 设为星

    后台回复【加群】,申请加入数据学习交流群

    大家好,我是一哥,今天给大家分享一篇标签体系如何建设的干货文章,欢迎转发收藏~

    为什么要先介绍标签体系?

    一个推荐系统效果好与坏最基本的保障、最基础的是什么?如果让我来回答,一定是标签体系。我这里说的标签主要是针对物料的,对于电商平台来说就是商品;对于音乐平台来说就是每一个首歌,对于新闻资讯平台来说就是每一条新闻。下一篇要介绍的是用户画像,画像中那些用户实时变化的兴趣点大都也是来自于标签体系,依据用户长期和短期行为中对于物料搜索、点击、收藏、评论、转发等事件,将物料的标签传导到用户画像上,就构成了用户的实时画像和离线画像中的各个动态维度。

    标签体系概览

    以京东的标签体系中的京东超市为例用思维导图来拆解,后面我们会详细的介绍如何构建标签体系。

    这里对京东超市标签拆解粒度到三只松鼠年货大礼包的实体级别,实际上各个公司的标签体系大致都是如下构成

    一、二、三级分类体系都很好理解,参考京东超市的拆解,相信大家就会明白。标签体系中实体标签和概念标签不好理解。

    实体标签

    必须是名词,且必须是唯一指代。

    学术性的解释逼格高,但是不容易理解,回答下面的问题

    • 老板问:苹果,是实体标签吗?

    • 给你三秒钟思考

    • 你回答:是!

    • 老板说:错!

    • 你懵逼:靠!为啥不是?

    实体标签的要求:名词,且唯一指代。

    苹果,是名词,但不是唯一指代,苹果 = 科技公司、手机、水果、牛仔裤

    概念标签

    难道我就不能用“苹果”了吗?当然可以用,只不过要给它另外起个名字:概念标签。

    概念标签通常表示的是“一类”或“某种相似”的内容,例如

    主题词

    这里以之家的标签体系举例,要给买车用户推荐评测导购(一级)的文章,用户画像中车的品牌(二级)偏好太粗,而实体标签如奔驰GLC又太细,填补这中间的粒度空白,满足用户购车意图的画像,就加入“代步优选”的主题词,这样不仅保持了推荐的多样性,又不至于过分精准而导致的极度收敛。

    以上大致介绍了一下标签体系,那么我们接下介绍一下如何构建标签体系以及其构建过程中应遵循的一些原则。

    标签体系构建原则

    原则一、放弃⼤而全的框架,以业务场景倒推标签需求

    原则二、标签生成自助化,解决效率和沟通成本

    原则三、有效的标签管理机制

    分别解释以下为什么提炼出这三个原则,分别用于解决什么问题?

    关于第一项原则:

    每个公司的产品、运营、商务对标签的诉求有较大的差异,同时不同的运营团队的诉求也存在很大差异,⼤而全的标签框架实际是站在用户视角搭建的,但是标签的真正应用者是业务方,所以应该从业务视角来实现。

    因此最佳的处理方式是,我们应该放弃顶层的用户抽象视角,针对各业务线或部门的诉求和实际的应用场景,分别将标签聚类起来提供给相应部门。

    之家就是非常典型的情况,商业同学更关心用户的消费能力相关的标签;自驾游负责同学更关心用户的位置和出行相关的标签;车友圈的同学更关注用户的社交活跃相关的标签;所以不可能一套标签覆盖整个运营团队, 这种以业务场景倒推标签需求的方法,能够与业务场景贴合更紧密,可用性上升。

    关于第二项原则:

    1.标签生成的自助化能够让沟通成本降最低。前面讲到各业务线对标签的定义的理解不同,需要标签系统建设团队花费大量的时间沟通。如果能够让业务方自己定义规则,这必然是沟通成本最低的方式。

    2.标签生成的自助化,可重复修改的规则,降低无效标签的堆积。业务一直在发展,如果规则一成不变则很难跟上业务节奏的变化。我曾拜访过一家电商,他们发现半年前定义“母婴客户群”的转化率一直在降低,因此根据实际情况重新修改和定义了“母婴客户群”规则,并命名为“母婴客户群(新)”,这时之前的规则是无效的,且会一直占据计算资源……诸如此类,如果支持规则重复修改的话,这一类无效标签就会大量地消失。

    3.释放数据团队人力,释放业务团队的想象力。数据团队应该花较多的精力在企业的整个数据中台或新业务模型方面,而不是处理各业务线的标签诉求和标签维护上,自动化的标签生成能够极大限度地节省人力和释放团队想象力。

    关于第三项原则:

    1.规则及元信息维护:标签相关的规则和元信息要尽可能的暴露给使用者,让使用者在使用的时候,能清楚知道标签的规则是什么、创建者是谁、维护者是谁、标签的更新频率周期等,而不是没有规则,或者将规则存在标签建设团队内部的一个 word 文档中。

    2.调度机制及信息同步:标签之间有一些关联,标签之间的链条断裂,是否有个调度机制或者信息同步机制让大家的工作不被影响。

    3.高效统一的输出接口:将所有的业务信息和用户数据信息汇总在一起,有统一的输出接口,改变之前需要针对不同的业务系统开发不同接口的情况。

    我们回顾标签体系构建的三原则,本质上是解决了价值、手段、可持续性三方面的问题:以业务场景倒推需求,让业务方用起来作为最终目标,让标签系统价值得以实现;标签生成的自助化,它解决的是我们用什么样的手段去实现价值;有效的标签管理机制,意味着一套标签体系能否可持续性地在一家企业里面运作下去。

    总之,对企业最重要的是:一套标签系统能不能在业务上用起来,能不能覆盖更广泛的需求,而不是一个大而全的框架。

    标签体系构建的方法

    标签体系的实施架构

    标签体系架构可以分为三个部分:数据加工层,数据服务层,数据应用层。每个层面面向用户对象不一样,处理事务有所不同。层级越往下,与业务的耦合度就越小。层级越往上,业务关联性就越强

    以某电商公司为例

    数据加工层。数据加工层收集,清洗和提取来处理数据。M公司有多个产品线:电商交易,电子书阅读,金融支付,智能硬件等等。每个产品线的业务数据又是分属在不同位置。为了搭建完善的用户标签体系,需要尽可能汇总最大范围内的数据。同时每个产品线的也要集合所有端的数据,比如:App,web,微信,其它第三方合作渠道。

    收集了所有数据之后,需要经过清洗:去重,去刷单数据,去无效数据,去异常数据等等。然后再是提取特征数据,这部分就要根据产品和运营人员提的业务数据要求来做就好。

    数据业务层。数据加工层为业务层提供最基础数据能力,提供数据原材料。业务层属于公共资源层,并不归属某个产品或业务线。它主要用来维护整个标签体系,集中在一个地方来进行管理。

    在这一层,运营人员和产品能够参与进来,提出业务要求:将原材料进行切割。主要完成以下核心任务:

    • 定义业务方需要的标签。

    • 创建标签实例。

    • 执行业务标签实例,提供相应数据。

    数据应用层。应用层的任务是赋予产品和运营人员标签的工具能力,聚合业务数据,转化为用户的枪火弹药,提供数据应用服务。

    业务方能够根据自己的需求来使用,共享业务标签,但彼此业务又互不影响。实践中可应用到以下几块:

    • 智能营销

    • Feed流推荐

    • 个性化消息push

    标签体系的设计

    1.业务梳理

    以业务需求为导向,可以按下面的思路来梳理标签体系:

    • 有哪些产品线?产品线有哪些来源渠道?一一列出。

    • 每个产品线有哪些业务对象?比如用户,商品。

    • 最后再根据对象聚合业务,每个对象涉及哪些业务?每个业务下哪些业务数据和用户行为?

    结果类似如下:

    2.标签分类

    按业务需求梳理了业务数据后,可以继续按照业务产出对象的属性来进行分类,主要目的:

    • 方便管理标签,便于维护和扩展。

    • 结构清晰,展示标签之间的关联关系。

    • 为标签建模提供子集。方便独立计算某个标签下的属性偏好或者权重。

    梳理标签分类时,尽可能按照MECE原则,相互独立,完全穷尽。每一个子集的组合都能覆盖到父集所有数据。标签深度控制在四级比较合适,方便管理,到了第四级就是具体的标签实例。

    3.标签的模型

    按数据的实效性来看,标签可分为

    • 静态属性标签。长期甚至永远都不会发生改变。比如性别,出生日期,这些数据都是既定的事实,几乎不会改变。

    • 动态属性标签。存在有效期,需要定期地更新,保证标签的有效性。比如用户的购买力,用户的活跃情况。

    从数据提取维度来看,标签数据又可以分为类型。

    • 事实标签。既定事实,从原始数据中提取。比如通过用户设置获取性别,通过实名认证获取生日,星座等信息。

    • 模型标签。没有对应数据,需要定义规则,建立模型来计算得出标签实例。比如支付偏好度。

    • 预测标签。参考已有事实数据,来预测用户的行为或偏好。比如用户a的历史购物行为与群体A相似,使用协同过滤算法,预测用户a也会喜欢某件物品。

    4.标签的处理

    为什么要从两个维度来对标签区分?这是为了方便用户标签的进一步处理。

    静态动态的划分是面向业务维度,便于运营人员理解业务。这一点能帮助他们:

    • 理解标签体系的设计。

    • 表达自己的需求。

    事实标签,模型标签,预测标签是面向数据处理维度,便于技术人员理解标签模块功能分类,帮助他们:

    • 设计合理数据处理单元,相互独立,协同处理。

    • 标签的及时更新及数据响应的效率。

    以上面的标签图表为例,面临以下问题:

    • 属性信息缺失怎么办?比如,现实中总有用户未设置用户性别,那怎么才能知道用户的性别呢?

    • 行为属性,消费属性的标签能不能灵活设置?比如,活跃运营中需要做A/B test,不能将品牌偏好规则写死,怎么办?

    • 既有的属性创建不了我想要的标签?比如,用户消费能力需要综合结合多项业务的数据才合理,如何解决?

    模型标签的定义解决的就是从无到有的问题。建立模型,计算用户相应属性匹配度。现实中,事实标签也存在数据缺失情况。

    比如用户性别未知,但是可以根据用户浏览商品,购买商品的历史行为来计算性别偏好度。当用户购买的女性化妆品和内衣较多,偏好值趋近于性别女,即可以推断用户性别为女。

    模型计算规则的开放解决的是标签灵活配置的问题。运营人员能够根据自己的需求,灵活更改标签实例的定义规则。比如图表中支付频度实例的规则定义,可以做到:

    • 时间的开放。支持时间任意选择:昨天,前天,近x天,自定义某段时间等等。

    • 支付笔数的开放。大于,等于,小于某个值,或者在某两个值区间。

    标签的组合解决就是标签扩展的问题。除了原有属性的规则定义,还可以使用对多个标签进行组合,创建新的复合型标签。比如定义用户的消费能力等级。

    标签最终呈现的形态要满足两个需求:

    • 标签的最小颗粒度要触达到具体业务事实数据,同时支持对应标签实例的规则自定义。

    • 不同的标签可以相互自由组合为新的标签,同时支持标签间的关系,权重自定义。

    - END -

    历史好文推荐

    1. 从0到1搭建大数据平台之计算存储系统

    2. 从0到1搭建大数据平台之调度系统

    3. 从0到1搭建大数据平台之数据采集系统

    4. 如何从0到1搭建大数据平台

    展开全文
  • seaborn添加数据标签In the course of my data exploration adventures, I find myself looking at such plots (below), which is great for observing trend but it makes it difficult to make out where and what...

    seaborn添加数据标签

    In the course of my data exploration adventures, I find myself looking at such plots (below), which is great for observing trend but it makes it difficult to make out where and what each data point is.

    在进行数据探索的过程中,我发现自己正在查看此类图(如下),这对于观察趋势非常有用,但是很难确定每个数据点的位置和位置。

    A line plot showing the total number of passengers yearly.
    How many passengers are there in 1956?
    1956年有多少乘客?

    The purpose of this piece of writing is to provide a quick guide in labelling common data exploration seaborn graphs. All the code used can be found here.

    本文的目的是提供一个快速指南,以标记常见的数据探索海洋图。 所有使用的代码都可以在这里找到。

    建立 (Set-Up)

    Seaborn’s flights dataset will be used for the purposes of demonstration.

    Seaborn的航班数据集将用于演示。

    import pandas as pd
    import seaborn as sns
    import matplotlib.pyplot as plt
    %matplotlib inline# load dataset
    flights = sns.load_dataset(‘flights’)
    flights.head()
    Dataframe showing the first 5 rows of the data in flights.
    First 5 rows of the the data in flights
    排期中数据的前5行

    For increased ease and convenience in creating some plots, some additional data frames can be created.

    为了增加创建某些绘图的便利性和便利性,可以创建一些其他数据框。

    # set up flights by year dataframe
    year_flights = flights.groupby(‘year’).sum().reset_index()
    year_flights
    Dataframe showing each year and the total number of flight passengers that year.
    Total number of passengers for each year
    每年的乘客总数
    # set up average number of passengers by month dataframe
    month_flights = flights.groupby(‘month’).agg({‘passengers’: ‘mean’}).reset_index()
    month_flights
    Dataframe showing each month of the year and the average number of flight passengers for that month.
    Total number of passengers for each month
    每个月的乘客总数

    线图 (Line Plot)

    Plotting a graph of passengers per year:

    绘制每年的乘客图:

    # plot line graph
    sns.set(rc={‘figure.figsize’:(10,5)})
    ax = sns.lineplot(x=’year’, y=’passengers’, data=year_flights, marker=’*’, color=’#965786')
    ax.set(title=’Total Number of Passengers Yearly’)# label points on the plot
    for x, y in zip(year_flights[‘year’], year_flights[‘passengers’]):
    # the position of the data label relative to the data point can be adjusted by adding/subtracting a value from the x &/ y coordinates
    plt.text(x = x, # x-coordinate position of data label
    y = y-150, # y-coordinate position of data label, adjusted to be 150 below the data point
    s = ‘{:.0f}’.format(y), # data label, formatted to ignore decimals
    color = ‘purple’) # set colour of line
    A line plot showing the total number of passengers yearly with data labels.
    Line plot showing the total number of passengers yearly.
    折线图显示了每年的乘客总数。

    At times, it would be preferable for the data label to be more visible, which can be achieved by adding a background colour to the data labels:

    有时,最好使数据标签更可见,这可以通过向数据标签添加背景色来实现:

    # add set_backgroundcolor(‘color’) after plt.text(‘…’)
    plt.text(x, y-150, ‘{:.0f}’.format(y), color=’white’).set_backgroundcolor(‘#965786’)
    A line plot showing the total number of passengers yearly with data labels that have a background colour.
    Line plot showing the total number of passengers yearly.
    折线图显示了每年的乘客总数。

    直方图 (Histogram)

    Plotting a histogram of the frequency of passengers on each flight:

    绘制每次航班上乘客频率的直方图:

    # plot histogram 
    ax = sns.distplot(flights[‘passengers’], color=’#9d94ba’, bins=10, kde=False)
    ax.set(title=’Distribution of Passengers’)# label each bar in histogram
    for p in ax.patches:
    height = p.get_height() # get the height of each bar
    # adding text to each bar
    ax.text(x = p.get_x()+(p.get_width()/2), # x-coordinate position of data label, padded to be in the middle of the bar
    y = height+0.2, # y-coordinate position of data label, padded 0.2 above bar
    s = ‘{:.0f}’.format(height), # data label, formatted to ignore decimals
    ha = ‘center’) # sets horizontal alignment (ha) to center
    Histogram showing the frequency of passengers on each flight.
    Histogram showing the number of passengers on each flight.
    直方图显示每次航班上的乘客人数。

    An additional information that might be beneficial to reflect in the graph as well is the mean line of the dataset:

    可能也有益于在图中反映的其他信息是数据集的平均线:

    # plot histogram 
    # …# adding a vertical line for the average passengers per flight
    plt.axvline(flights[‘passengers’].mean(), color=’purple’, label=’mean’)# adding data label to mean line
    plt.text(x = flights[‘passengers’].mean()+3, # x-coordinate position of data label, adjusted to be 3 right of the data point
    y = max([h.get_height() for h in ax.patches]), # y-coordinate position of data label, to take max height
    s = ‘mean: {:.0f}’.format(flights[‘passengers’].mean()), # data label
    color = ‘purple’) # colour of the vertical mean line# label each bar in histogram
    # …
    Histogram showing the frequency of passengers on each flight with a vertical line indicating the mean.
    Histogram showing the number of passengers on each flight and a line indicating the mean.
    直方图显示每次航班上的乘客人数,线表示平均值。

    条形图 (Bar Plot)

    Vertical Bar Plot

    垂直条形图

    Plotting the total number of passengers for each year:

    绘制每年的乘客总数:

    # plot vertical barplot
    sns.set(rc={‘figure.figsize’:(10,5)})
    ax = sns.barplot(x=’year’, y=’passengers’, data=year_flights)
    ax.set(title=’Total Number of Passengers Yearly’) # title barplot# label each bar in barplot
    for p in ax.patches:
    # get the height of each bar
    height = p.get_height()
    # adding text to each bar
    ax.text(x = p.get_x()+(p.get_width()/2), # x-coordinate position of data label, padded to be in the middle of the bar
    y = height+100, # y-coordinate position of data label, padded 100 above bar
    s = ‘{:.0f}’.format(height), # data label, formatted to ignore decimals
    ha = ‘center’) # sets horizontal alignment (ha) to center
    Bar Plot with vertical bars showing the total number of passengers yearly.
    Bar plot with vertical bars showing the total number of passengers yearly
    竖线条形图,显示每年的乘客总数

    Horizontal Bar Plot

    水平条形图

    Plotting the average number of passengers on flights each month:

    绘制每月航班的平均乘客数:

    # plot horizontal barplot
    sns.set(rc={‘figure.figsize’:(10,5)})
    ax = sns.barplot(x=’passengers’, y=’month’, data=month_flights, orient=’h’)
    ax.set(title=’Average Number of Flight Passengers Monthly’) # title barplot# label each bar in barplot
    for p in ax.patches:
    height = p.get_height() # height of each horizontal bar is the same
    width = p.get_width() # width (average number of passengers)
    # adding text to each bar
    ax.text(x = width+3, # x-coordinate position of data label, padded 3 to right of bar
    y = p.get_y()+(height/2), # # y-coordinate position of data label, padded to be in the middle of the bar
    s = ‘{:.0f}’.format(width), # data label, formatted to ignore decimals
    va = ‘center’) # sets vertical alignment (va) to center
    Bar plot with horizontal bars showing the average number of passengers for each month.
    Bar plot with horizontal bars showing the average number of passengers for each month
    带有水平条的条形图,显示每个月的平均乘客人数

    使用注意事项 (Notes on Usage)

    It might be beneficial to add data labels to some plots (especially bar plots), it would be good to experiment and test out different configurations (such as using labels only for certain meaningful points, instead of labelling everything) and not overdo the labelling, especially if there are many points. A clean and informative graph is usually more preferable than a cluttered one.

    将数据标签添加到某些图(尤其是条形图)可能是有益的,尝试并测试不同的配置(例如仅对某些有意义的点使用标签,而不是对所有内容进行标签),并且不要过度标注,特别是如果有很多要点的话。 通常,干净整洁的图表比混乱的图表更可取。

    # only labelling some points on graph# plot line graph
    sns.set(rc={‘figure.figsize’:(10,5)})
    ax = sns.lineplot(x=’year’, y=’passengers’, data=year_flights, marker=’*’, color=’#965786')# title the plot
    ax.set(title=’Total Number of Passengers Yearly’)mean = year_flights[‘passengers’].mean()# label points on the plot only if they are higher than the mean
    for x, y in zip(year_flights[‘year’], year_flights[‘passengers’]):
    if y > mean:
    plt.text(x = x, # x-coordinate position of data label
    y = y-150, # y-coordinate position of data label, adjusted to be 150 below the data point
    s = ‘{:.0f}’.format(y), # data label, formatted to ignore decimals
    color = ‘purple’) # set colour of line
    A line plot showing the total number of passengers yearly.
    Line plot showing the total number of passengers yearly.
    折线图显示了每年的乘客总数。

    翻译自: https://medium.com/swlh/quick-guide-to-labelling-data-for-common-seaborn-plots-736e10bf14a9

    seaborn添加数据标签

    展开全文
  • 来源:谈数据(ID:learning-bigdata)本文长度为6500字,建议阅读10+分钟通过标签体系,建立数据中台,打通用户数据。01 从“标签”说起标签是用来标志您的产品目标和分...

    来源:谈数据(ID:learning-bigdata)

    本文长度为6500字,建议阅读10+分钟

    通过标签体系,建立数据中台,打通用户数据。

    01 从“标签”说起

    标签是用来标志您的产品目标和分类或内容,像是您给您的目标确定的关键字词,便于您自己和他人查找和定位自己目标的工具。目前标签广泛的使用到我们的工作和生活中,常见标签有三类:实物标签、网络标签和电子标签。

    • 实物标签是用于标明物品的品名、重量、体积、用途等信息的简要标牌,例如:商品标签、图书标签、车检标签、文件标签、服装吊牌、车票、登机牌都是实物标签。

    • 网络标签(Tag)是一种互联网内容组织方式,是相关性很强的关键字,它帮助人们轻松的描述和分类内容,以便于检索和分享,Tag是web 2.0的重要元素。

    • 电子标签又称RFID射频标签,是一种识别效率高和准确性好的识别工具,通过射频信号自动识别目标对象并获取相关数据,识别工作无须人工干预,可工作于各种恶劣环境。

    而我们这里用户画像使用的标签是网络标签的一种深化应用方式,是某一种用户特征的符号表示,是我们观察、认识和描述用户的一个角度。用户标签是基于用户的特征数据、行为数据和消费数据进行统计计算得到的,包含了用户的各个维度。

    而所谓的用户画像就是可以用用户标签的集合来表示的,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具。

    用户画像,即用户信息标签化,就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌作是企业应用大数据技术的基本方式。

    用户画像为企业提供了足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。

    02 用户标签的分类

    1. 按照标签的变化频率,可分为静态标签和动态标签。

    静态标签是指用户与生俱来的属性信息,或者是很少发生变化的信息,比如用户的姓名、性别、出生日期,又例如用户学历、职业等,虽然有可能发生变动,但这个变动频率是相对比较低或者很少发生变化的。

    动态标签是指非常经常发生变动的、非常不稳定的特征和行为,例如“一段时间内经常去的商场、购买的商品品类”这类的标签的变动可能是按天,甚至是按小时计算的。

    2. 按照标签的指代和评估指标的不同,可分为定性标签和定量标签。

    定性标签指不能直接量化而需通过其他途径实现量化的标签,其标签的值是用文字来描述的,例如“用户爱好的运动”为“跑步、游泳”,“用户的在职状态”为“未婚”等。

    定量标签指可以准确数量定义、精确衡量并能设定量化指标的标签,其标签的值是常用数值或数值范围来描述的。定量标签并不能直观的说明用户的某种特性,但是我们可以通过对大量用户的数值进行统计比较后,得到某些信息。

    例如“用户的年龄结构”为“20-25岁”、“单次购买平均金额”为“300元”,“购买的总金额”为“20万元”……,当我们获得以上信息是否就可以将该用户划分为高价值客户呢?

    3. 按照标签的来源渠道和生成方式不同,可以分为基础标签、业务标签、智能标签。

    • 基础标签主要是指对用户基础特征的描述,比如:姓名、性别、年龄、身高、体重等。

    • 业务标签是在基础标签之上依据相关业务的业务经验并结合统计方法生成的标签,比如:用户忠诚度、用户购买力等标签就是根据用户的登录次数、在线时间、单位时间活跃次数、购买次数、单次购买金额、总购买金额等指标计算出来的。业务标签可以将经营固化为知识,为更多的人使用。

    • 智能标签是利用人工智能技术基于机器学习算法,通过大量的数据计算而实现的自动化、推荐式的进行打标签,比如今日头条的推荐引擎就是通过智能标签体系给用户推送其感兴趣的内容的。

    4. 按照标签体系分级分层的方式,可以分为一级标签、二级标签、三级标签等,每一个层级的标签相当于一个业务维度的切面。在标签应用中按照不同的业务场景进行标签组合,形成相应用户画像。

    5. 按照数据提取和处理的维度,可以将标签分为事实标签、模型标签、预测标签。

    这种用户标签的分类方式更多是面向技术人员使用,帮助他们设计合理的数据处理单元。

    • 事实标签:既定事实,直接从原始数据中提取,描述用户的自然属性、产品属性、消费属性等,事实标签其本身不需要模型与算法,实现简单,但规模需要不断基于业务补充与丰富,比如:姓名、购买的产品品类、所在小区等。

    • 模型标签:对用户属性及行为等属性的抽象和聚类,通过剖析用户的基础数据为用户贴上相应的总结概括性标签及指数,标签代表用户的兴趣、偏好、需求等;指数代表用户的兴趣程度、需求程度、购买概率等。

    • 预测标签:参考已有事实数据,基于用户的属性、行为、位置和特征,通过机器学习、深度学习以及神经网络等算法进行用户行为预测,针对这些行为预测配合营销策略、规则进行打标签,实现营销适时、适机、适景推送给用户。例如试用了某产品A后预测可能还想买产品B并推送购买链接给该用户。

    03 用户画像的应用场景

    用户画像,即用户信息标签化,是企业通过收集与分析消费者基本属性、社会属性、生活习惯、行为特征等主要信息的数据之后,抽象出用户的商业全貌。大数据的发展让各行各业都日益聚焦于怎样利用大数据了解用户需求,实现精准营销,进而深入挖掘潜在的商业价值。

    不同的企业做用户画像有不同的战略目的,广告公司做用户画像是为精准广告服务;电商做用户画像是为用户购买更多商品;内容平台做用户画像是推荐用户更感兴趣的内容提升流量再变现。

    企业对用户的了解越多,就越容易为用户提供所需产品和服务,从而提升用户的粘性,提升企业盈利能力。

    1. 了解用户

    不得不承认大数据正在改变着各行各业,以前了解用户主要是通过用户调研和访谈的形式,形式单一、数据收集不全、真假难辨。尤其是在产品用户量扩大后,调研的效用降低,不能满足企业发展的要求。

    利用大数据技术,基于标签体系构建用户的360°画像,从用户的各个维度进行分析,了解用户是谁,他们有什么特征,他们的兴趣偏好,而这些信息的研究是企业制定营销策略、服务策略,提升用户满意度的重要依据。

    2. 精准营销

    要做到精准营销,数据是最不可缺的存在。以数据为基础,建立用户画像,利用标签,让系统进行智能分组,获得不同类型的目标用户群,针对每一个群体策划并推送针对性的营销。精准化营销具有极强的针对性,是企业和用户之间点对点的交互。它不但可以让营销变得更加高效,也能为企业节约成本。

    3. 产品创新

    在用户需求为导向的产品研发中,企业通过获取到的大量目标用户数据,进行分析、处理、组合,初步搭建用户画像,做出用户喜好、功能需求统计,从而设计制造更加符合用户核心需求的新产品,为用户提供更加良好的体验和服务。

    4. 渠道优化

    当前的零售企业的销售渠道有多种,比如:自营门店、经销商代理、电商平台、电商APP等,每个渠道的用户群体的消费能力、兴趣偏好可能是不一样的,通过用户画像可以让合适的产品在合适的渠道投放,从而增加销售量,这是目前零售行业惯用的方法。

    5. 个性推荐

    众所周知,今日头条是个个性化的新闻推荐引擎,在今日头条CEO张一鸣看来,算法是《今日头条》这款兴趣推荐搜索引擎应用的核心,这也是与传统媒体最本质的区别。

    今日头条之所以能够非常懂用户,精准推荐出用户所喜好的新闻,完全得益于算法,而正是精准推荐,使得每天有大量用户在今日头条上阅读自己感兴趣的文章。

    04 用户画像的体系架构

    按照应用系统分层设计的原则,基于标签体系的用户画像的体系结构可以分为:数据源层、数据采集层、数据建模层、数据应用层,行业应用层等。

    1. 数据源层

    用户标签体系建设的需要从不同的来源汇集数据,例如,企业的核心系统(不同的行业其核心系统不同,对制造业来说核心系统有ERP、MES、PLM等)、营销系统(CRM)、互联网数据(电商平台以及微信、微博、论坛等社交平台获取的数据),以及从第三方专业机构获取的数据(各地的数据交易中心购买的数据)。

    2. 数据采集层

    与传统数据项目的数据采集不同,基于标签体系的用户画像的数据来源广泛、数据量巨大,数据类型丰富(包括:结构化数据、半结构化数据和非结构化数据),有线上的用户行为数据,也有应用系统日志数据,有互联网爬虫数据,也有API接口的第三方数据包。

    用户画像数据采集需要通过网络爬虫或网站公开API等方式从网站上获取数据信息,并且可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并支持以结构化的方式存储。同时支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。

    3. 数据建模

    基于标签体系的用户画像建模主要是针对产品画像建模和用户画像建模。产品画像建模包括了数据清洗、文本建模、类别识别、品牌识别、属性识别、产品画像等;用户画像建模包括了数据清洗、用户全渠道ID识别、信息整合、分析建模和用户画像。

    通过统一产品类目和属性体系和统一的用户画像标签体系的建设,为用户标签的应用提供支撑。

    4. 数据应用

    即基于标签体系的应用,包括分析类应用(如用户分析、产品分析)、服务类应用(如服务及产品创新)、营销类应用(精准营销)、数据接口API等。

    5. 行业应用

    基于标签体系的用户画像在各行业的应用和探索,将为行业的发展和创新带来更多可能。

    05 用户画像的建设步骤

    1. 数据采集

    用户画像是根据用户的人口信息、社交关系、偏好习惯和消费行为等信息而抽象出来的标签化画像,用户画像数据来源多样,采集方式也不同:

    • 线下采集的信息,比如通过访谈、调研等方式采集的数据;

    • 线上采集的信息,比如:消费记录、浏览日志、收藏记录等;

    • 从第三方接口接入的信息,比如微信接口可以获取用户微信的昵称、性别、地域,QQ接口可以获取用户QQ的昵称、性别、年龄、生日、星座、地域等信息;

    • 还有通过爬虫获取的数据,比如微博、评论、论坛等社交媒体的内容;

    • 通过机器学习训练得到信息,比如通过预置机器学习算法;

    • 利用网络爬虫不断抓取数据进行大量计算得出来的数据,比如情感偏好、购物偏好等。

    2. 数据清洗

    大家都知道大数据有一个特征Value(价值密度低),标签体系的建设是在大数据环境下进行的,大数据的低价值密度性决定着在采集回来的数据中存在着大量的噪声数据、脏数据,比如:缺失值、重复、数值异常等。

    要实现精准的用户画像就需要对这些噪声数据、脏数据进行处理,这个过程我们叫做数据清洗。

    常见的数据清洗方法:

    • 缺失值处理,对于缺失数据的处理方法有三种,一是删除缺失数据(数据采集不易,一般不轻易删除数据);二是补齐缺失数据,常用方法有:均值插补、中位数插补、最大值插补、最小值插补、固定值插补、最近邻插补、热卡填补法等;三是不处理缺失数据。

    • 重复数据处理(删除重复的数据)。

    • 异常数据处理,对于异常数据的处理常用的方式是根据一定的规则先找到异常数据,查找异常数据常用的方法包括:统计分析、分类聚类、箱型图分析、模型检测、密度分析、距离分析等。在找到异常数据后,根据业务情况确定是删除、修正或补齐异常数据值。

    3. 数据标准化

    在做用户画像分析之前,需要先将数据标准化,利用标准化后的数据进行数据分析。数据标准化处理主要包括数据同趋化处理无量纲化处理两个方面。

    数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。

    数据标准化的方法有很多种,常用的有“最小—最大标准化”、“Z-score标准化”“按小数定标标准化”等。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。

    用户画像的建立需要有整合多源数据的能力,比如一个用户可能使用多个设备,拥有多个账号,则须把多个身份ID组合,建立统一的标准,形成完整标识实体的用户画像。以上描述的这个场景被称为OneID体系——统一身份认证,即对于同一个人,使用不同设备或系统只有唯一身份。

    4. 数据建模

    数据建模就是根据用户行为,构建模型产出标签、权重。一个事件模型包括:时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件,可以详细描述为:什么用户,在什么时间,什么地点,做了什么事

    用户动态建模公式:用户标识 +时间 + 行为类型 + 接触点(网址+内容),表示某用户在什么时间、地点、做了什么事,所以会打上某标签。用户标签的权重主要与行为类型权重、时间衰减、用户行为次数以及TF、IDF有关,其计算公式为:

    用户标签权重 = 行为类型权重 × 时间衰减 × 用户行为次数 × TF-IDF计算标签权重

    • 行为类型权重:用户浏览、搜索、收藏、下单、购买等不同行为对用户而言有着不同的重要性(偏序关系),该权重值一般由运营人员或业务来决定;

    • 时间衰减:用户某些行为受时间影响不断减弱,行为时间距现在越远,该行为对用户当前来说的意义越小,采用牛顿冷却定律;

    • 行为次数:用户标签权重按天统计,用户某天与该标签产生的行为次数越多,该标签对用户的影响越大。

    公式:T=初始温度×exp(-冷却系数×间隔的时间),实际应用中,初始温度为1就行,间隔的时间为今天与产生行为那天的天数,或者小时数都行,根据业务进行调整,冷却系数的业务来决定,或者通过数据分析而来。

    TF-IDF计算标签权重:TF为某标签在该用户出现频率,IDF为某标签在全部标签中的稀缺程度。

    5. 标签挖掘

    标签挖掘,即对用户标签体系中的用户数据进行挖掘,形成用户标签,这个过程也叫标签生产。标签的生产方式主要有以下两种:

    • 基于规则定义的标签生产方式,即根据固定的规则,通过数据查询的结果生产标签,重点在于如何制定规则。

    • 基于主题模型的标签生产方式,主题模型最开始运用于内容领域,目的是找到用户的偏好,在用户标签中我们可以参照分类算法将用户进行分类、聚类,使用关键词的算法挖掘用户的偏好,从而生产标签。

    在整体用户标签生产过程中,通过用户关系数据(用户关系数据体现了用户之间的客观重要程度)、用户内容数据(用户发布的信息,微博、微信、评论等)、用户行为数据(用户的浏览、搜索、收藏、下单、加入购物车、购买等行为)挖掘出用户的标签及其基础权重;接下来通过多个维度的定向挖掘进行标签的校正和增加标签的覆盖。

    最后,将挖掘出来的用户标签及权重输出至用户标签库,供上层业务调用。标签挖掘常用到数据挖掘、机器学习的相关算法有:支持向量机、线性回归、朴素贝叶斯、神经网络、决策树、分类、聚类、关联等。

    6. 数据可视化

    数据可视化是基于标签体系的用户画像的重要应用, 通过详实、准确对用户的各类标签数据进行汇集和分析,并以图片、表格等可视化手段帮助企业全面了解用户的基础信息,用户关系情况,用户经济情况、用户偏好情况、健康情况、饮食情况等信息。

    同时,利用数据标签体系的用户画像可视化技术,通过对用户关系数据、用户内容数据、用户行为等数据进行可视化展示,能够帮助企业管理人员、业务人员全面了解用户,了解用户是谁,他们有什么特征,他们的兴趣偏好等,从而为智能推荐、精准营销、产品和服务创新、渠道优化等业务提供支撑。

    06 总结

    用户画像的目的是为了精准地定位你的目标群体以及他们的特征,用户画像不是简单的用户分类,而是一个具体的用户形象。用户画像可以帮助我们了解到最重要的80%用户需求是什么,以及哪些是用户其实没那么在意的20%的需求。

    用户画像可以为各方面的工作展开提供方向,大到营销战略的制定,小到如何回复一个用户的留言。构建基于标签体系的用户画像是为了解决实际的业务问题,需要带着业务目标进行用户画像,为了画像而画像的炫技派或者get不到任何价值的粗放式画像都是不可取的。

    参考文献:

    数据标准化:

    https://baike.baidu.com/item/数据标准化/4132085

    标签体系应用及设计思路:

    http://www.woshipm.com/pd/1768531.html

    微博用户画像之用户标签:

    https://cloud.tencent.com/developer/article/1041922

    用户画像:

    https://www.zhihu.com/question/19853605/answer/951491041

    编辑:黄继彦

    校对:杨学俊

    展开全文
  • 在学习Matplotlib可视化过程中绘制一些相应的图形往往需要给图形添加数据标签这样才能通过图形更清楚的知道要表达的含义,下面通过一些简单的案例来讲解。 【案例一】 胡润财富榜:亿万资产超高净值家庭数 利用...

    在学习Matplotlib可视化过程中绘制一些相应的图形往往需要给图形添加数据标签这样才能通过图形更清楚的知道要表达的含义,下面通过一些简单的案例来讲解。

    【案例一】

    胡润财富榜:亿万资产超高净值家庭数

    利用水平交错条形图对比2016年和2017年亿万资产超高净值家庭数(top5)

    【需要运行出的效果如下】

    【代码】

    import matplotlib.pyplot as plt
    import pandas as pd
    
    
    # 解决乱码
    plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
    plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
    
    # 导入数据
    raw_data = {'城市': ['北京','上海','香港','深圳','广州'],
                '2016': [15600,12700,11300,4270,3260],
                '2017': [17400,14800,12000,5200,4020],}
    
    # 创建数据框
    df = pd.DataFrame(raw_data)
    
    
    # 获取下标
    pos = list(range(len(df['城市'])))
    
    # 设置图形宽度
    width = 0.3
    
    # 绘图
    plt.bar([p - width/2 for p in pos], df['2016'],width,color='#FFCCCC', label=df['城市'][0])
    plt.bar([p + width/2 for p in pos], df['2017'], width, color='#6699CC', label=df['城市'][1])
    
    
    
    # 设置x轴标签
    plt.xticks(range(5),df['城市'])
    
    # 设置y轴的范围
    plt.ylim([2000,20000])
    
    # 给图像加上图例
    plt.legend(['2016','2017'],loc='upper right')
    
    # 为每个条形图添加数值标签
    for x,y in enumerate(df['2016']):
        plt.text(x-0.13,y,'%s' %round(y),ha='center', va= 'bottom',fontsize=9)
    
    for x,y in enumerate(df['2017']):
        plt.text(x+0.09,y ,'%s' %round(y),ha='center', va= 'bottom',fontsize=9)
    
    # 为x,y轴添加标签名
    plt.xlabel('Top5 City')
    plt.ylabel('Family Amount')
    
    # 设置标题
    plt.title('Millions Family Amount Top5 City Distribution')
    
    # 显示
    plt.show()
    
    

    【解析】

    1.如果输入的图形需要显示中文加入这两句代码就可以(解决Python matplotlib中文乱码问题

    # 解决乱码
    plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
    plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

    2.将数据存入到数据框里面

    # 导入数据
    raw_data = {'城市': ['北京','上海','香港','深圳','广州'],
                '2016': [15600,12700,11300,4270,3260],
                '2017': [17400,14800,12000,5200,4020],}
    
    # 创建数据框
    df = pd.DataFrame(raw_data)
    print(df)

    然后打印下结果如下

       城市   2016   2017
    0  北京  15600  17400
    1  上海  12700  14800
    2  香港  11300  12000
    3  深圳   4270   5200
    4  广州   3260   4020

    3.获取每座城市在数据框里面对应的下标

    # 获取下标
    pos = list(range(len(df['城市'])))

    我们可以打印下pos

    print(pos)
    
    # 输出结果
    [0,1,2,3,4]

    4.绘图

    # 设置图形宽度
    width = 0.3
    
    # 绘图
    plt.bar([p - width/2 for p in pos], df['2016'],width,color='#FFCCCC', label=df['城市'][0])
    plt.bar([p + width/2 for p in pos], df['2017'], width, color='#6699CC', label=df['城市'][1])
    

    因为我们需要绘制2种条形图所以需要2个plt.bar(),好了你可能会问[p - width/2 for p in pos]和[p + width/2 for p in pos]是什么意思,那我们打印下看看

    print([p - width/2 for p in pos])
    print([p + width/2 for p in pos])
    
    #输出结果
    
    [-0.15, 0.85, 1.85, 2.85, 3.85]
    [0.15, 1.15, 2.15, 3.15, 4.15]

    可以看到打印出来的是一些数字,话句话说是坐标,为什么这样说呢,你首先要了解plt.bar()这个函数

    plt.bar(x=x,    # 柱体在 x 轴上的坐标位置
            height=y,    # 柱体的高度
            align='center',    #  x 轴上的坐标与柱体对其的位置
            color='bisque',    # 柱体的填充颜色
            tick_label=labels,    # 每个柱体的标签名称
            alpha=0.6,    # 柱体填充颜色的透明度
            width=0.8,    # 柱体的宽度
            bottom=0.2,    # 柱体基线的 y 轴坐标
            edgecolor='g',   # 柱体的边框颜色
            linewidth=1.5,   # 柱体边框线的宽度
            )

    这样你应该懂了,相反后面的 df['2016']也就是条形图对应的y的值,这样下来我们就确定了(x,y)坐标了,然后就是那个width就是条形图的图形宽度。

    5.设置x轴标签

    # 设置x轴标签
    plt.xticks(range(5),df['城市'])

    看懂这段代码你首先得知道plt.xticks()函数,这个函数就是显示条形图中x对应的文字

    plt.xticks([-1,0,1],['-1','0','1'])
    第一个:对应X轴上的值,第二个:显示的文字

    range(5)的结果为[0,1,2,3,4]

    df['城市']对应的结果为:北京、上海、香港、深圳、广州

    然后结合下就是(0,北京)、(1,上海)、(2,香港)、(3,深圳)、(4,广州)

     

    6. 设置y轴的范围(这个没啥好解释的)

    # 设置y轴的范围
    plt.ylim([2000,20000])

    7. 给图像加上图例

    # 给图像加上图例
    plt.legend(['2016','2017'],loc='upper right')

    这段代码就是显示条形图中2种颜色代表的含义在右上角那个图标显示如果你写成plt.legend()也可以

     

    8.为每个条形图添加数值标签

    # 为每个条形图添加数值标签
    for x,y in enumerate(df['2016']):
        plt.text(x-0.13,y,'%s' %round(y),ha='center', va= 'bottom',fontsize=9)
    
    for x,y in enumerate(df['2017']):
        plt.text(x+0.09,y ,'%s' %round(y),ha='center', va= 'bottom',fontsize=9)

    理解这段代码你需要了解enumerate()函数和plt.text()函数

    enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中。
    以下是 enumerate() 方法的语法:
    enumerate(sequence, [start=0])
    >>>seq = ['one', 'two', 'three']
    >>> for i, element in enumerate(seq):
    ...     print i, element
    ... 
    0 one
    1 two
    2 three
    
    
    
    plt.text(x,
    	y,
    	string,
    	fontsize=15,
    	verticalalignment="top",
    	horizontalalignment="right"
    )
    
    x,y:表示坐标值上的值
    string:表示说明文字
    fontsize:表示字体大小
    verticalalignment:垂直对齐方式 ,参数:[ ‘center’ | ‘top’ | ‘bottom’ | ‘baseline’ ]
    horizontalalignment:水平对齐方式 ,参数:[ ‘center’ | ‘right’ | ‘left’ ]
    fontsize,style,ha,va参数分别是字号,字体,垂直对齐方式,水平对齐方式。
    

    看懂了enumerate()函数你大概知道了x和y的意思把,就是坐标轴上x和y,通过for循环遍历df['2016']这个数据集

    接下来你可能很好奇plt.text()里面的x-0.13和x+0.09是什么意思,这里主要的调整下x坐标对应的y的值在条形图上的对齐位置,如果你们不知道你可以试一试直接写x看看效果是什么。

     

    9.显示图形

    # 设置标题
    plt.title('Millions Family Amount Top5 City Distribution')
    
    # 显示
    plt.show()

     

    展开全文
  • 深度学习数据集预处理之打标签

    千次阅读 多人点赞 2020-02-14 22:41:52
    在有监督深度学习中,数据集和标签集是缺一不可的,标签是啥呢,就是用来区分数据之间的分类命名,那么咱们开门见山,走起。 首先,确定数据集的维数,以m行1列的电机轴承数据集为例 需要做啥呢? 均值+归一化处理,...
  • 我在做一个柱形图的时候,想在上面添加一个数据标签,显示对应的值,这就让我很为难了   发现一个博主写的文字表达挺详细的,我参考了下 http://baijiahao.baidu.com/s?id=1591715401379954937&wfr=...
  • 这种算法主要就是解决带标注的医疗图像数据量少的问题,因为这个模型可以通过给未标注图像进行标注然后加入数据集中继续训练模型。 先来看看文章的几个创新点: 说起来其实非常简单, 归结如下:通过不断...
  • 但是,如果我们加入中间图片的噪音模式,则分类器认为这是一张雏菊的图片。 解决   显然,多扫视后投票和无监督预训练的策略都不能解决这个漏洞。   使用高度正则化会有所帮助,但会影响判断不含噪声图像的...
  • Python 生成带标签数据集的 CSV 文件

    千次阅读 2018-06-17 15:36:14
    #!/usr/bin/python ...# Python 生成 CSV 文件,可用于生成带标签数据集 CSV 文件,标签从0开始自动升序:0,1,2,3... # 作者:huihut # 仓库:https://gist.github.com/huihut/9881c98a1d9279d4fa9dfd8475e3f...
  • Mahout随机森林算法--分类无标签数据

    千次阅读 2015-11-02 23:27:16
    Mahout 随机森林算法(Random Forest)利用建立好的模型(BuildForest的输出结果)以及描述文件(Describe的输出结果),来对没有标签数据进行分类。受TestForest中的CMapper的启发,其主要代码如下: String line...
  • 可以采用在methods方法内给data赋值的方法也可以采用return的方法 1.给data赋值的方法 <template> <div id="app3"> <div class="blue-back"> <div class="left mall-name">...div cl...
  • 最近遇到一个问题,自己训练好神经网络,输出的是特征数,但是结果需要...生成带标签的time_step数据,维度如上所示,但是这其中第二维中的38维里有一维是标签,进入网络时需要去掉这一列。本来X_data是一个list,为...
  • 最近做图像分类,数据集的整理真的好费时间,找到一个代码,非常好使,推荐给大家。 实现的功能是,将一个文件夹下的每个子文件夹的一半数据分割出来并保存,生成相应的train.txt,test.txt。 对代码做了轻微的修改...
  • 一、用户画像—计算用户偏好标签 下面介绍如何计算用户的偏好标签。 在上一篇写用户画像的文章 “用户画像—打用户行为标签”中,主要讲了如何对用户的每一次操作行为、业务行为进行记录打上相应的标签。在这篇...
  • 推荐算法(3):利用用户标签数据

    千次阅读 2019-05-23 16:14:16
    利用用户标签数据 第一种CB 第二种 UCF 第三种 用户标签行为数据。就是人为的添加的标签,比如用户对看的一部电影打标签,写博客时作者给博客打的标签标签分两种:一种是作者或者专家给商品打标签,一种是普通...
  • 保存layui表格里input标签数据

    千次阅读 2019-07-27 15:07:17
    上次写到了在layui表格里面加入input标签, 并且设置input标签的类型为时间格式,使数据顺序整齐排列在表格里,并且可以在layui表格里同时对多条数据进行编辑。 那么,现在,问题又来了:如何同时保存在layui表格里面...
  • 统一数据接入实践分享

    千次阅读 2019-10-08 00:15:21
    数据接入就是对于不同的数据来源、不同的合作伙伴,完成数据采集、数据传输、数据处理、数据缓存到行业统一的数据平台的过程。 数据接入的三个阶段 前 0.非结构化数据----(word,excel,图片,pdf,扫描件,视频...
  • (二)使用YOLOv3训练BDD100K数据集之标签格式转换

    千次阅读 多人点赞 2019-01-15 17:43:39
    1 将BDD100K数据集的json标签格式转换为VOC的xml标签格式 2 将xml标签格式转换为darknet的txt标签格式 3 生成train.txt和val.txt 1 将BDD100K数据集的json标签格式转换为VOC的xml标签格式 此部分参考并整理了自动...
  • input标签回显日期类型数据(Date)

    千次阅读 2020-05-24 18:48:38
    我们常用 input 中的 type = ‘date’ 来设置可选日期,但是正常的直接回显就碰到了问题,没有回显数据,只是显示了 年/月/日 但是数据没有显示 像这样 解决办法 在 input 语句块内加入 required="required" &...
  • 于是就在input标签加入了disabled使之无法修改 但是按下按钮后,非但数据没有传入后台,反而相应的属性变成了null 出问题代码如下 <input type="hidden" name="bookType" value="0"> <p> ...
  • 在Vue中span标签的背景图是根据后台返回的数据动态显示的图片,如下图中的的红圈是根据后台返回的数据动态显示的图片,对应的HTML是.icon元素实现元素的背景图的动态显示的具体操作如下1)根据后台返回的数据,在该...
  • layui表格里加入input标签

    万次阅读 2019-07-27 15:01:45
    layui表格里加入input标签 问题:如何在表格里添加input标签,并且设置input标签的类型为时间格式,即将input标签的“type”设置为“date”,然后在编辑完input标签里面的内容后,将新编辑的内容保存呢? layui表格...
  • 1.项目当中导入插件(个人愚见:选择那个基于原生js开发的插件,避免和自己项目的jquery起冲突,当然实在不想找,可以加入下面的学习群,里面有一些插件文件) 2.页面当中uediter的渲染主要是靠带有id属性的div ...
  • 分别在两个属性集上训练两个分类器,将这两个分类器运用到无标签数据上,在选择每个分类器分类结果置信度高的无标签数据以及该数据的预测标签加入另一个分类器的有标签数据集中进行下一轮训练。 2.主动学习算法:...
  • Java框架总结

    万次阅读 多人点赞 2020-01-17 14:14:13
    加入群聊,一起学习、一起进步 欢迎点赞 收藏 ⭐留言 本系列用来记录常用java框架的基本概念、区别及联系,也记录了在使用过程中,遇到的一些问题的解决方法,方便自己查看,也方便大家查阅。 一、SSH 1、基本概念 ...
  • 最近录制的ajax从基础到实战的视频,包含原生ajax jquery的ajax 以及ajax接口获取数据等 Ajax前端开发、项目实战、从零基础到精通、接口数据调用-学习视频教程-腾讯课堂 红色为常见面试题 =======================...
  • 这里是我个人写的一个demo:里面是把“stationId”加入在了url后面说实话这个我是在网上找资料查出来的具体为什么可以这样用,我也不是很清楚希望能有大神赐教一二...
  • MATLAB手写数字识别

    万次阅读 多人点赞 2019-07-31 14:07:22
    由于没有数据集,所以采用了MNIST数据集进行代码的运行。数据集不同所以需要对代码进行微小改动。 简介 数据处理:4000张作为训练样本,1000张作为测试样本; 图像大小:图片的灰度值矩阵(28,28); 图像名称:由...
  • 在之前的博文中介绍了三种方法给用户推荐物品。 1)UserCF:给用户推荐和他们兴趣爱好相似的其他用户喜欢的物品。 2) ItemCF:给用户推荐与他喜欢过的物品相似的物品。...本节咱们将讨论一种重要的特征表现形式–标签

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 280,897
精华内容 112,358
关键字:

如何加入数据标签