精华内容
下载资源
问答
  • 信息流产品和内容推荐算法

    千次阅读 2019-12-04 17:56:41
    (一)什么是信息流产品 当下,信息流(资讯)和短视频是唯一两个在用户领域保持好的增长事态的细分行业。像其他比较成熟的互联网细分行业,比如说移动社交,电商,OTO这个细分行业,用户已经饱和了,用户增长比较...

    (一)什么是信息流产品

    当下,信息流(资讯)和短视频是唯一两个在用户领域保持好的增长事态的细分行业。像其他比较成熟的互联网细分行业,比如说移动社交,电商,OTO这个细分行业,用户已经饱和了,用户增长比较缓慢,而短视频以及信息流是一个很迅猛的用户增长的势头。

    信息流产品是一个非常好的用作商业变现的产品形态。

    1. 信息流产品的特点

    • 信息流产品

      • 在合适的场景下,为用户提供合适的内容
      • 适合手机屏幕,手指上下滑动,如水流般源源不断
      • 数据量足够大,能够不断刷出新内容

    2. 对用户价值

    从用户层面讲,信息流产品对于用户价值,主要体现在下面四个方面

    • 便捷阅读

      • 相对于传统的书籍,杂志,信息流产品会是一个便捷的阅读方式
    • 海量信息

    • 新鲜及时

    • 个人兴趣

    3. 商业上的价值

    商业上的价值就是信息流广告
    信息流广告是一种很高效的变现模式

    • 就像曾经的搜索广告,信息流广告已经成为用户接受的、高效变现模式

    今日头条 DAU(日活)超过1.2 亿,人均时长70分钟+,年均广告营收150亿+;
    网易DAU超过2千万,人均时长40分钟+,年均广告营收50亿+;

    (二)如何推荐内容

    信息流产品的本质是推荐内容,那怎么样推荐内容呢?

    1. 推荐内容的两种方法

    一种是人工运营的方法,人工去筛选一套人工的经验去对新闻价值做出判断;另外一种就是依靠机器,依靠算法去做推荐,这两种推荐内容的方法各有优劣。

    2.为什么要用算法

    大数据时代,每天更新的内容是海量的。而人工运营,往往局限于热点内容,就像是冰山一角。冰山之下,是大量的长尾、冷门的内容,必须依赖机器算法做个性化推荐。

    3. 推荐系统框架

    • 理论上的简化框架
      在这里插入图片描述
    • 推荐系统实操
      在这里插入图片描述
      我们会有合作伙伴(Partner),也会有爬虫(Crawler),我们通过爬虫或者是合作伙伴会把我们的数据抓到我们的库里,大概库里每天文章的更新会在 20 万左右,文章入库之后,我们通过 Content Parser(分词提取器)会对文章做一些语义分析、文本分析去生成一些文章相关的标签或者类型等一些特征,通过过滤之后,我们会把这些数据放在 Feeder 的数据库。Feeder 一方面与这个Feature Server 相交互,会把数据传递到 index(用户兴趣索引)。用户会根据会话的行为,会做一些记录和上报,同时会把这些数据(Session Server)同步更新到用户索引上。Index 之后的召回(Recall),对于一个用户来讲,我们第一次召回,会召回 2000 篇文章左右。这 2000 篇文章的来源一个是CF(协同过滤) ,CF又来源于 ItemCF 就是基于内容的相似度(我之前看过一篇文章,我会推一个跟之前文章相似的文章,就是基于文章相似度做一个推荐),UserCF就是基于用户相似度的协同过滤,就是通过计算,找出用户跟另外一个人类似,然后就会把另一个人看过的文章和感兴趣的内容也推给这个用户。另外还有一种召回内容的方式叫 CB 就是基于内容本身,比如说这篇文章是体育,那这篇文章就会推送给有体育标签的用户。比如说一篇文章有关键字,有科比,那就会推荐给带有科比标签的用户。NH 就是在当前系统里比较热门的文章,那我们怎么判断那些是热门的文章呢,首先是依据 action 就是行为,因为每篇文章可以会被用户阅读,被用户点赞,被用户评论,被用户分享,我们还会制定一些权重,那我们对这些行为做一个分析,我们可以判断这个文章是一个热门文章。那我们这些热门文章在召回的时候,也会基于 User Profile(用户属性)比如说性别属性、地区属性等,我们也不会乱推,尽管它是热门文章,我们也要考虑人群的定向化;Time 就是任何热门的东西,都有时间衰减性。
      下面说 Rank 这个模块,就是排序的模块。这个模块我们会说从刚刚 2000 篇的文章里筛选出 200 篇文章,并且对这 200 篇文章进行排序。那我们这 200 篇文章是怎么排序的呢?我们会对这 200 篇文章进行 CTR 的预估,以及阅读时长的预估。为什么不只做 CTR 的预估,就是系统要避免“标题档”的存在。从这200篇文章里,最后到 Rerank 的模块,就是从 200 篇文章里审出 15 篇文章。我们用贝叶斯的方法对这个15篇,主要要增加文章的多样性,我们要把同类推荐的文章打散;Fix 就是在这15 篇文章里增加探索性的内容,我们不希望让用户的标签固化,就是一个用户打上了体育标签,我们不希望这个用户永远会是这个标签,我们偶尔也会加 5%-10% 左右的探索性的内容。

    (三)推荐质量的评估

    1. 流量该如何分配

    • 70% 的流量分配给稳定模型

    • 30% 的流量分配给实验模型

      • 10% 实验模型A
      • 10% 实验模型B
      • 10% 实验模型C

    2. 实验模型的评测指标

    • 准确率

      • 推荐列表里,多少比例的文章,是用户读过的;
    • 召回率

      • 推荐列表中,用户度过的文章,占用户阅读记录的比例
    • 覆盖率

      • 推荐列表的文章里,占文章总数的比例

    举例:文章总量为100,用户实际看了10篇文章,最终实验模型推荐了20篇文章,用户看过的有8篇,准确率为40%,召回率为80%,覆盖率为20%;

    3. 实际业务中关注的算法效果

    • UV 转化率

      • 阅读UV/曝光UV,反映多少比例的曝光用户转化为阅读用户
    • PV 转化率

      • 阅读PV/曝光PV,反映文章的平均转化情况
    • 人均篇数

      • 阅读PV/阅读UV,反映内容消费深度
    • 人均阅读时长

      • 阅读总时长/阅读UV,反映内容消费深度
    展开全文
  • 目前使用手机的人越来越多,甚至有人...基于百度信息流(首页、贴吧、浏览器等)穿插展现在信息流中的原生广告,主要以单图、大图、三图、视频等样式展现在原生资讯内容之中。其最大优点就是“在内容里面融入广告”...

    目前使用手机的人越来越多,甚至有人说信息流得优势早就超过大搜了。足以可见信息流的发展很快,已经渗透到了用户的日常生活中。面对这块市场红利大的蛋糕,很多新媒体都是信息流广告,百度作为国内最大的搜索引擎,当然也不会落下。
    什么是百度信息流?
    基于百度信息流(首页、贴吧、浏览器等)穿插展现在信息流中的原生广告,主要以单图、大图、三图、视频等样式展现在原生资讯内容之中。其最大优点就是“在内容里面融入广告”,使用户在浏览内容时不自觉地去接受广告信息,保留了固有的用户体验。在百度竞价中信息流和百度百意以及百度大搜构成了竞价中最长使用的三种广告投放模式。
    手机百度助手APP信息流示例:
    在这里插入图片描述
    手机百度贴吧信息流示例:

    在这里插入图片描述
    为什么选择百度信息流?
    目前国内的信息流大致分为三大类:以微信朋友圈广告、腾讯智汇推、微博粉丝通、陌陌到店通、万能钥匙等为首社交类;以今日头条、一点资讯、澎湃新闻、腾讯新闻、UC头条、百度信息流等为首的新闻类;还有以爱奇艺、腾讯视频、优酷、土豆等为首的视频类。
    信息流广告的优势在于,一是结合了传统与新媒体的技术优势;二是符合用户使用和浏览的习惯也就是上面提到的用户体验;三是原生信息流的内容更易于被接受,它是以常规的内容形式展现,且不会打断或干扰用户的行为。对比其他信息流,百信信息流有以下优势:
    流量优势:百度信息流日活跃用户超过10000万,三个月流量增长20倍,人均使用信息流时长增长300%。
    产品优势: 流量生态 、智能定向 、营销赋能。百度信息流,打通搜索与资讯阅读一站式的品牌营销平台。
    内容优势:丰富的百度信息流生态体系,连接人与内容,结合用户行为及商品信息,生成千人千面的广告创意。
    精准推荐算法:百度大脑智能数据定向,精准找到目标客群
    操作便利:一站式创意平台、批量组合创意功能、客户端+开放API平台、定制化创新能力。开放平台为营销赋能,创新定制、创意平台、开放式API,为营销赋能。
    敏锐的洞察力:绝大多数信息流广告的玩法是基于用户兴趣,推测用户的意图,而百度则会通过用户的兴趣、搜索记录、浏览记录,分析用户的真实意图进行推送。
    付费方式多样:百度信息流有CPT、 CPM 、CPC等多种收费模式。
    什么样的业务适合投放百度信息流广告呢?
    1、回头客生意较多的产品,适合百度信息流广告;
    2、品牌效益起作用大的产品,适合投放百度信息流广告;
    3、大众化消费的产品,适合投放百度信息流广告;
    4、隐私性强的产品,适合投放百度信息流广告;
    5、诱惑力大的产品,暴利产品,如游戏,保险,股票、投资、理财类产品适合投放百度信息流广告;
    本文来自:怎么推

    展开全文
  • 视频类信息流广告已成为移动广告的主流形式,互动性强,效果明显,受广告主青睐。盘点国内三大视频类广告平台的特点,希望对大家有帮助

    一 爱奇艺视频广告投放技巧

    爱奇艺的数据:

    截止17年10月,月独立设备54864(万台),日独立设备达13930,总榜第四,在线视频第一;其中24-35岁的人群站34.2%(艾瑞指数数据)

    爱奇艺的媒体特点:

    1)百度搜索数据支撑(爱奇艺已被百度收购,与百度的搜索数据打通)

    2)在线视频网站的霸主

    3)平均有效时长长

    4)午后晚间高峰,休息日高峰

    爱奇艺的投放策略:

    投“大词”,忌长尾:(区别于SEM,在选词的时候应注重更大范围,保证展现,才能筛选更精准人群),以下几点要注意:

    1)关键词定向的数据来源(爱奇艺用户在平台搜索的结果,爱奇艺在手机百度的搜索数据 )

    2)兴趣定向:用户的观看行为兴趣标签,关联视频推荐。

    2)设置关键词,放开兴趣定向(如果关键词跟定向同时限制,会容易过度筛选用户,从而影响曝光。)

    二  优酷信息流广告的特性

    优酷广告的形式:视频贴片,暂停贴片,信息流banner。通过代理商投放广告。

    优酷用户人群画像:优酷APP日活为6946万台,男女比例为57%:43%,人群分布较平均。(艾瑞数据)


    优酷信息流的特点:

    1)目前已被阿里收购,数据与阿里已有大数据打通;

    2)优酷视频注重UGC平台,由拍客这一块的资源

    3)用户个性订阅,针对性信息流,直播资源多。

    4)定向:区别于爱奇艺,优酷没有意图词定向,目前定向的维度由地域,频道时间标签,节目,设备,人群拍客等。

    5)优酷的资源已经跟腾讯,阿里,新浪,搜狐,凤凰等打通。

    优酷的计费模式:

    CPC ,CPV (按照播放量计费),CPM ,主要为CPM。更多优酷的案例素材可登录(App Growing查看

    三 暴风影音的资源,特性及数据分析

    1)暴风影音资源介绍:

    类似与优酷,爱奇艺,分为PC段,APP端:

    PC端的特色资源(电脑开机的角标 贴片 ,资讯弹窗广告位 )


    2)暴风影音用户画像:

    暴风影音的日活跟爱奇艺,优酷差别较大,仅为726万,男女比例为53%:47%,人群主要集中在25-35之间,占比60%。

    3)暴风影音的特点

    ① 效法今日头条,争做视频类个性化推荐的第一人,根据用户的流量习惯给用户打标签。

    ② 导向

    ③ 决策

    主要以长图文+文字的图文结合为主,直接类的干货为主

    ④ 内容

    目前正尝试将长视频剪辑为短视频,节选播放,通过短视频+标题党吸引用户注意。

    ⑤ 资源多样化体验较好

    ⑥ 量级比较小,价格略高,排期购买。

    展开全文
  • 整个大众点评信息流(下文简称点评信息流)围绕个性化推荐去连接用户和信息,把更好的内容推荐给需要的用户。信息流推荐系统涉及内容挖掘、召回、精排、重排、创意等多层机制和排序。本文主要围绕创意部分的工作展开...

    1. 引言

    信息流是目前大众点评除搜索之外的第二大用户获取信息的入口,以优质内容来辅助用户消费决策并引导发现品质生活。整个大众点评信息流(下文简称点评信息流)围绕个性化推荐去连接用户和信息,把更好的内容推荐给需要的用户。信息流推荐系统涉及内容挖掘、召回、精排、重排、创意等多层机制和排序。本文主要围绕创意部分的工作展开,并选取其中重要的文本创意优化做介绍,分为三个部分:第一部分阐述几个重点问题,包括创意优化是什么,为什么做,以及挑战在哪里;第二部分讲述领域内的应用及技术进展;第三部分介绍我们创意优化的实践,最后做个总结。

    什么是创意优化

    创意是一个宽泛的概念,它作为一种信息载体对受众展现,可以是文本、图像、视频等任何单一或多类间的组合,如新闻的标题就是经典的创意载体。而创意优化,作为一种方法,指在原有基础上进一步挖掘和激活资源组合方式进而提升资源的价值。在互联网领域产品中,往往表现为通过优化创意载体来提升技术指标、业务目标的过程,在信息流中落地重点包括三个方向:

    1. 文本创意:在文本方面,既包括了面向内容的摘要标题、排版改写等,也包括面向商户的推荐文案及内容化聚合页。它们都广泛地应用了文本表示和文本生成等技术,也是本文的主要方向。
    2. 图像创意:图像方面涉及到首图或首帧的优选、图像的动态裁剪,以及图像的二次生成等。
    3. 其他创意:包括多类展示理由(如社交关系等)、元素创意在内的额外补充信息。

    核心目标与推荐问题相似,提升包括点击率、转化率在内的通用指标,同时需要兼顾考量产品的阅读体验包括内容的导向性等。关于“阅读体验”的部分,这里不作展开。

    图1 创意优化的整体应用

    为什么要做文本生成

    首先文本创意本身为重要的业务发展赋能。在互联网下半场,大众点评平台(下称点评平台)通过内容化去提升用户停留时长,各类分发内容类型在不停地增加,通过优化创意来提升内容的受众价值是必由之路。其次,目前很多内容类型还主要依赖运营维护,运营内容天然存在覆盖少、成本高的问题,无法完全承接需要内容化改造的场景。最后,近几年深度学习在NLP(Natural Language Processing,自然语言处理)的不同子领域均取得了重大突破。更重要的是,点评平台历经多年,积淀了大量可用的内容数据。从技术层面来说,我们也有能力提供系统化的文本创意生成的解决方案。

    对此,我们从文本创意面向对象的角度定义了两类应用形态,分别是面向内容的摘要标题,以及面向商户的推荐文案与内容化聚合页。前者主要应用信息流各主要内容场景,后者则主要应用在信息流广告等内容化场景。这里提前做下产品的简单介绍,帮助大家建立一个立体化的感知。

    • 摘要标题:顾名思义,就是针对某条分发内容生成摘要作标题展示。点评内容源非常多样,但超过95%内容并没有原生标题,同时原生标题质量和多样性等差异也极大。
    • 商户文案:生成有关单个商户核心卖点的描述,一般形式为一句话的短文案。
    • 内容聚合:生成完整的内容页包括标题及多条文案的短篇推荐理由,不同于单商户文案的是,既需要考虑商户的相关性,又要保证理由的多样性。

    图2 文本创意的应用场景

    最后需要明确的是,我们做文本创意优化最大的初心,是希望通过创意这个载体显式地连接用户、商户和内容。我们能够知道用户关注什么,知道哪些内容说什么,如何引导用户看,知道哪些商户好、好在哪里,将信息的推荐更进一步。而非为了生成而生成。

    面临的挑战

    文本创意优化,在业务和技术上分别面临着不同的挑战。首先业务侧,启动创意优化需要两个基础前提:

    • 第一,衔接好创意优化与业务目标,因为并不是所有的创意都能优化,也不是所有创意优化都能带来预期的业务价值,方向不对则易蹚坑。
    • 第二,创意优化转化为最优化问题,有一定的Gap。其不同于很多分类排序问题,本身相对主观,所谓“一千个人眼中有一千个哈姆雷特”,创意优化能不能达到预期的业务目标,这个转化非常关键。

    其次,在技术层面,业界不同的应用都面临不一样的挑战,并且尝试和实践对应的解决方案。对文本创意生成来说,我们面临的最大的挑战包括以下三点:

    • 带受限的生成 生成一段流畅的文本并非难事,关键在于根据不同的场景和目标能控制它说什么、怎么说。这是目前挑战相对较大的一类问题,在我们的应用场景中都面临这个挑战。
    • 业务导向 生成能够提升业务指标、贴合业务目标的内容。为此,对内容源、内容表示与建模上提出了更高的要求。
    • 高效稳定 这里有两层含义,第一层是高效,即模型训练预测的效果和效率;第二层是稳定,线上系统应用,需要具备很高的准确率和一套完善的质量提升方案。

    2. 文本生成问题综述

    我们整体的技术方案演进,可以视作近两年NLP领域在深度学习推动下发展的一个缩影。所以在展开之前,先谈一谈整个领域的应用及技术进展。

    2.1 相关领域应用

    在学界相关领域,文本生成被称为NLG,其相关任务目标是根据输入数据生成自然语言的文本。而我们在NLP领域使用更多的一般是NLU(Nature Language Understanding 自然语言理解)类任务,如文本分类、命名实体识别等,NLU的目标则是将自然语言文本转化成结构化数据。NLU和NLG两者表向上是一对相反的过程,但其实是紧密相连的,甚至目前很多NLU的任务都受到了生成式模型中表示方法的启发,它们更多只在最终任务上有所区别。

    文本生成也是一个较宽泛的概念,如下图所示,广义上只要输出是自然语言文本的各类任务都属于这个范畴。但从不同的输入端可以划分出多种领域应用,从应用相对成熟的连接人和语言的NMT(神经机器翻译),到2019年初,能续写短篇故事的GPT2都属于Text2Text任务。给定结构化数据比如某些信息事件,来生成文本比如赛事新闻的属于Data2Text类任务,我们的商户文案也属此类。另外还有Image2Text等,这块也逐渐在出现一些具有一定可用性又让人眼前一亮的应用,比如各种形式的看图说话。

    图3 从输入端划分文本生成的领域应用

    2.2 相关技术与进展

    文本生成包含文本表示和文本生成两个关键的部分,它们既可以独立建模,也可以通过框架完成端到端的训练。

    文本生成

    文本生成要解决的一个关键问题,是根据给定的信息如何生成一段文本句子。这是一个简单输入复杂输出的任务,问题的复杂度太大,至今在准确和泛化上都没有兼顾的非常好的方法。2014年提出的Seq2Seq Model,是解决这类问题一个非常通用的思路,本质是将输入句子或其中的词Token做Embedding后,输入循环神经网络中作为源句的表示,这一部分称为Encoder;另一部分生成端在每一个位置同样通过循环神经网络,循环输出对应的Token,这一部分称为Decoder。通过两个循环神经网络连接Encoder和Decoder,可以将两个平行表示连接起来。

    另外一个非常重要的,就是Attention机制,其本质思想是获取两端的某种权重关系,即在Decoder端生成的词和Encoder端的某些信息更相关。它也同样可以处理多模态的问题,比如Image2Text任务,通过CNN等将图片做一个关键特征的向量表示,将这个表示输出到类似的Decoder中去解码输出文本,视频语音等也使用同样的方式(如下图所示)。

    图4 Seq2Seq结构图示

    可见Encoder-Decoder是一个非常通用的框架,它同样深入应用到了文本生成的三种主流方法,分别是规划式、抽取式和生成式,下面看下这几类方法各自的优劣势:

    • 规划式:根据结构化的信息,通过语法规则、树形规则等方式规划生成进文本中,可以抽象为三个阶段。宏观规划解决“说什么内容”,微观规划解决“怎么说”,包括语法句子粒度的规划,以及最后的表层优化对结果进行微调。其优势是控制力极强、准确率较高,特别适合新闻播报等模版化场景。而劣势是很难做到端到端的优化,损失信息上限也不高。
    • 抽取式:顾名思义,在原文信息中抽取一部分作为输出。可以通过编码端的表征在解码端转化为多种不同的分类任务,来实现端到端的优化。其优势在于:能降低复杂度,较好控制与原文的相关性。而劣势在于:容易受原文的束缚,泛化能力不强。
    • 生成式:通过编码端的表征,在解码端完成序列生成的任务,可以实现完全的端到端优化,可以完成多模态的任务。其在泛化能力上具有压倒性优势,但劣势是控制难度极大,建模复杂度也很高。

    目前的主流的评估方法主要基于数据和人工评测。基于数据可以从不同角度衡量和训练目标文本的相近程度,如基于N-Gram匹配的BLUE和ROUGE等,基于字符编辑距离(Edit Distance)等,以及基于内容Coverage率的Jarcard距离等。基于数据的评测,在机器翻译等有明确标注的场景下具有很大的意义,这也是机器翻译领域最先有所突破的重要原因。但对于我们创意优化的场景来说,意义并不大,我们更重要的是优化业务目标,多以线上的实际效果为导向,并辅以人工评测。

    另外,值得一提的是,近两年也逐渐涌现了很多利用GAN(Generative Adversarial Networks,生成对抗网络)的相关方法,来解决文本生成泛化性多样性的问题。有不少思路非常有趣,也值得尝试,只是GAN对于NLP的文本生成这类离散输出任务在效果评测指标层面,与传统的Seq2Seq模型还存在一定的差距,可视为一类具有潜力的技术方向。

    文本表示

    前文提到,在Encoder端包括有些模型在Decoder端都需要对句子进行建模,那如何设计一个比较好的模型做表示,既可以让终端任务完成分类、序列生成,也可以做语义推理、相似度匹配等等,就是非常重要的一个部分。那在表示方面,整个2018年有两方面非常重要的工作进展:

    • Contextual Embedding:该方向包括一系列工作,如最佳论文Elmo(Embeddings from Language Models),OpenAI的GPT(Generative Pre-Training),以及谷歌大力出奇迹的BERT(Bidirectional Encoder Representations from Transformers)。解决的核心问题,是如何利用大量的没标注的文本数据学到一个预训练的模型,并通过通过这个模型辅助在不同的有标注任务上更好地完成目标。传统NLP任务深度模型,往往并不能通过持续增加深度来获取效果的提升,但是在表示层面增加深度,却往往可以对句子做更好的表征,它的核心思想是利用Embedding来表征上下文的的信息。但是这个想法可以通过很多种方式来实现,比如ELMo,通过双向的LSTM拼接后,可以同时得到含上下文信息的Embedding。而Transformer则在Encoder和Decoder两端,都将Attention机制都应用到了极致,通过序列间全位置的直连,可以高效叠加多层(12层),来完成句子的表征。这类方法可以将不同的终端任务做一个统一的表示,大大简化了建模抽象的复杂度。我们的表示也经历了从RNN到拥抱Attention的过程。

    图5 GPT ELMo BERT模型结构

    • Tree-Based Embedding:另外一个流派则是通过树形结构进行建模,包括很多方式如传统的语法树,在语法结构上做Tree Base的RNN,用根结点的Embedding即可作为上下文的表征。Tree本身可以通过构造的方式,也可以通过学习的方式(比如强化学习)来进行构建。最终Task效果,既和树的结构(包括深度)有关,也受“表示”学习的能力影响,调优难度比较大。在我们的场景中,人工评测效果并不是很好,仍有很大继续探索的空间。

    3. 探索与实践

    该部分介绍从2017年底至今,我们基于文本生成来进行文本创意优化的一些探索和实践。

    3.1 内容源

    启动文本生成,首先要了解内容本身,数据的数量和质量对我们的任务重要性无须赘述,这是一切模型的基础。目前我们使用到的数据和大致方法包括:

    • 平台渠道:用户评价、用户笔记、Push、攻略、视频内容、榜单、团单等等。
    • 第三方渠道:合作获取了很多第三方平台的内容来补缺,同时运营侧辅助创意撰写和标注了大量内容,他们同样贡献了可观的数据量。
    • 标注数据:最稀缺的永远是标注数据,尤其是符合业务目标的标注。为此,我们在冷启动阶段设计了E&E(Explore and Exploit,探索与利用)机制,有意识地积累线上标注,同时尽量引入更多第三方的标注源。

    但这些内容的不同特点,也带来了不同的挑战:

    • 内容多样:前面提到的这些内容的结构化程度各不相同,长短差异也极大,对内容表示提出了很高的要求。
    • 质量不一:源内容非常丰富,但事实上质量、质感远远没有达到理想的标准。尤其是占绝对大头的UGC的内容,不做好两端的质控将极大影响业务目标的优化,甚至会造成体验问题。
    • 聚焦商户:平台99%以上的内容,都以商户作为核心载体,这个对商户的理解和表示同样提出了很高的要求,尤其是在内容化升级的场景下。
    • 场景差异:不同的场景、不同的应用,对模型能力的侧重和优化目标不一样。比如内容和商户,前者要求要有很高的准确率,同时保证优化线上效果;后者更多的是要求有较强的泛化性,并对质感进行优化。

    图7 双平台内容特点与挑战

    3.2 基础能力模块

    所以,文本创意优化要在业务侧落地产生效果,还需应用到NLP领域诸多方向的技术。下图是抽象的整个文本生成应用的基础能力模块,包括用于源和端质量控制的文本质量层,构建Context表示的文本表示层,以及面向业务优化的端到端模型层,其中很多技术应用了公司其他兄弟团队包括内容挖掘组、NLP中心、离线计算组的出色成果。如针对负面内容过滤的情感分析,多项针对性的文本分类,针对商户表示的标签挖掘等,在这里特别向他们表示感谢。

    图8 文本生成应用的基础能力模块

    3.3 信息流标题实践

    双平台的内容需要在信息流分发,在创意上最先优化的就是标题,这是用户仅能看到两个要素之一(另一个为首图),而我们超过95%的内容并没有原生标题,同时原生标题也存在诸如多样性差非场景导向等问题,还有二次优化的空间。

    但是,有两点比较大的挑战,在不同任务上具象可能不一样。它们的本质并没有改变,部分也是业界难点:

    • 1. 两个受限条件:第一,需要以线上点击率转化率为优化目标,线上没效果,写的再好意义都不大;第二,需要与原文强相关,并且容错空间极小,一出现就是Case。
    • 2. 优化评估困难:第一,模型目标和业务目标间存在天然Gap;第二,标注数据极度稀缺,离线训练和线上实际预测样本数量之间,往往差距百倍。

    对此,我们通过抽取式和生成式的相结合互补的方式,并在流程和模型结构上着手进行解决。

    抽取式标题

    抽取式方法在用户内容上有比较明显的优势:首先控制力极强,对源内容相关性好,改变用户行文较少,也不容易造成体验问题,可以直接在句子级别做端到端优化。对此,我们把整个标题建模转变为一个中短文本分类的问题,但也无法规避上文提到两个大挑战,具体表现在:

    • 在优化评估上,首先标题创意衡量的主观性很强,线上Feeds的标注数据也易受到其他因素的影响,比如推荐排序本身;其次,训练预测数据量差异造成OOV问题非常突出,分类任务叠加噪音效果提升非常困难。对此,我们重点在语义+词级的方向上来对点击/转化率做建模,同时辅以线上E&E选优的机制来持续获取标注对,并提升在线自动纠错的能力。
    • 在受限上,抽取式虽然能直接在Seq级别对业务目标做优化,但有时候也须兼顾阅读体验,否则会形成一些“标题党”,亦或造成与原文相关性差的问题。对此,我们抽象了预处理和质量模型,来通用化处理文本创意内容的质控,独立了一个召回模块负责体验保障。并在模型结构上来对原文做独立表示,后又引入了Topic Feature Context来做针对性控制。

    整个抽取式的流程,可以抽象为四个环节+一个在线机制:

    图9 抽取式生成标题流程

    1. 源数据在内容中台完成可分发分析后,针对具体内容,进行系统化插件式的预处理,包括分句拼句、繁简转换、大小写归一等,并进行依存分析。
    2. 而后将所有可选内容作质量评估,包括情感过滤、敏感过滤等通用过滤,以及规则判别等涉及表情、冗余字符处理与语法改写的二次基础优化。
    3. 在召回模块中,通过实体识别+TF-IDF打分等方式来评估候选内容标题基础信息质量,并通过阈值召回来保证基础阅读体验,从而避免一些极端的Bad Case。
    4. 最后,针对候选标题直接做句子级别的点击/转化率预估,负责质感、相关性及最终的业务目标的优化。为此,我们先后尝试了诸多模型结构来解决不同问题,下面重点在这方面做下介绍。

    我们第一版Bi-LSTM+Attention整个结构并不复杂。我们的输入层是PreTrain的Word Embedding,经过双向LSTM给到Attention层,Dropout后全连接,套一个交叉熵的Sigmod,输出判别,但它的意义非常明显,既可以对整句序列做双向语义的建模,同时可以通过注意力矩阵来对词级进行加权。这个在线上来看,无论是对体感还是点击转化率都较召回打分的原始版本,有了巨大提升。而后,我们还在这个Base模型基础上,尝试添加过ELMo的Loss,在模型的第一层双向LSTM进行基于ELMo Loss的Pre Train作为初始化结果,在线上指标也有小幅的提升。

    图10 Bi-LSTM+Attention

    但是上述这个结构,将中短文本脱离原文独立建模,显然无法更好地兼顾原文受限这个条件。一个表现,就是容易出现“标题党”、原文不相关等对体验造成影响的问题。对此,我们在原文与候选标题结合的表示建模方面,做了不少探索,其中以CNN+Bi-LSTM+Attention的基模型为代表,但其在相关性建模受原文本身长度的影响较大,而且训练效率也不理想。

    图11 CNN+Bi-LSTM+Attention

    经过一段时间的探索分析,在原文受限问题上,最终既通过深度模型来表征深层的语义,也辅以更多的特征工程,如属性、Topic等挖掘特征我们统称为Context,来表征用户能感知到的浅层信息,“两条腿走路”才能被更好的学习,这个在文案生成和标题生成的探索中反过来为抽取式提供了借鉴。

    在效率上,我们整体替换了RNN-LSTM的循环结构,采用了谷歌那时新提出的自注意力的机制,来解决原文表征训练效率和长依赖问题。采用这个结构在效果和效率上又有了较大的提升。主要问题是,我们的Context信息如何更好地建模到Self-Attention的结构中。它与生成式模型结构非常类似,在下文生成式部分有所介绍。

    另外,需要说明的一点是,除非有两个点以上的巨大提升,一般我们并不会以离线评测指标来评价模型好坏。因为前面提到,我们的标注数据存在不同程度的扰动,而且只是线上预测很小的一个子集,无法避免的与线上存在一定的Gap,所以我们更关注的是模型影响的基础体验(人工检测通过率即非Bad Case率),效率表现(训练预测的时效)最重要的还是线上实际的业务效果。在我们这几个版本的迭代中,这三个方面都分别获得了不同程度的优化,尤其是包括点击率、总点击量等在内的业务指标,都累计获得了10%以上的提升。

    图13 效果数据

    受限生成式标题

    抽取式标题在包括业务指标和基础体验上都获取了不错的效果,但仍有明显的瓶颈。第一,没有完全脱离原文,尤其在大量质量欠优内容下无法实现创意的二次优化;第二,更好的通过创意这个载体显式的连接用户、商户和内容,这个是生成式标题可以有能力实现的,也是必由之路。

    生成式标题,可以抽象描述为:在给定上文并在一定受限条件下,预估下个词的概率的问题。在信息流标题场景,抽取式会面临的问题生成式全部会继承,且在受限优化上面临更大的挑战:

    • 原文受限,首先只有表示并学习到原文的语义意图才能更好的控制标题生成,这个本身在NLU就是难点,在生成式中就更为突出;其次,标注数据稀缺,原文+标题对的数据极少,而大部分又存在于长文章。为了保证控制和泛化性,我们初期将标题剥离原文独立建模,通过Context衔接,这样能引入更多的非标数据,并在逐步完成积累的情况下,才开始尝试做原文的深度语义表示。
    • 优化评估,受限生成式对训练语料的数量和质量要求高很多,首先要保证基础的语义学习也要保证生成端的质量;其次,生成式本质作为语言模型无法在句子层面对业务目标直接做优化,这中间还存在一道Gap。

    在表示上,前面已经提到,我们经历过目标单独建模和结合原文建模的过程,主要原因还是在于仅针对Target的理解去构建Context衔接,非常容易出现原文相关性问题。所以我们在描述的泛化性方向也做了不少的尝试,比如尽可能地描述广而泛主题。诸如“魔都是轻易俘获人心的聚餐胜地”,因为只面向上海的商户,内容符合聚餐主题,泛化能力很强,但仍然不能作为一个普适的方案解决问题。

    下图为我们一个有初步成效的RNN-Base的Seq2Seq模型的整体结构。Encoder端使用的是,包括前面提到的主题(包括商户信息)表示以及原文的双向语义表示,两部分的拼接构成的Context,输出给注意力层。Decoder端生成文本时,通过注意力机制学习主题和原文表示的权重关系,这个结构也完整应用到了文案生成,其中控制结构会在文案中展开介绍。

    图14 LSTM Attention Based Seq2Seq模型结构

    在序列建模上,我们经历了一个从RNN到自注意力的过程。简单介绍下,序列建模一个核心要点是如何建模序列间的长依赖关系。影响它的重要因素是,信号在网络正向和反向计算中传递的长度(也就是计算次数),较长的依赖关系消失越严重。而在自注意力结构中,每一层都直接与前一层的所有位置直接连接,因此依赖长度均为O(1),最大程度保留了序列间的依赖关系。

    可以看到,Encoder包括两部分,一部分是Source原文,一部分是基于原文和商户理解的主题Context,两者共同组成。为此,我们借鉴了NMT的一部分研究思想,调整了Transformer的结构,在原结构上额外引入了Context Encoder,并且在Encoder和Decoder端加入了Context的Attention层,来强化模型捕捉Context信息的能力。

    图15 Transformer Based Seq2Seq Model

    我们在生成式方向探索过程中,对低质内容的标题生成,在线上获得了接近10%的效果提升,但仍有很多值得进一步的尝试和深挖的空间。

    抽取与生成Combine

    在我们的场景中,有两种Combine的思路,一个是以业务效果为导向的偏工程化方法,另外一个是我们正在探索的一种Copy方法。

    工程化的思想非常简洁,在推荐问题上扩充候选,是提升效果的一个可行途径,那生成内容即作为新增的候选集之一,参与整体的预估排序。这个方法能保证最终线上效果不会是负向的,实际上也取得了一定的提升。

    另一种方法也是学业界研究的子方向之一,即Copy机制,我们也在做重点探索,这里仅作思路的介绍,不再进行展开。

    使用Copy机制的原始目的,是为了解决生成式的OOV(超出词表范围)问题。但对于我们的场景来说,大部分的“内容-标题”对数据是来自于抽取式,即我们很多标题数据,其实参考了原文。那如何继承这个参考机制,针对业务目标学习何时Copy以及Copy什么,来更优雅地发挥生成式的优势,就是我们探索Copy方法的初衷。我们的方向是对Copy和Generate概率做独立建模,其中重点解决在受限情况下的“Where To Point”问题。

    业务指标与生成式目标的Gap

    我们知道生成式模型其本质是一个Language Model,它的训练目标是最小化Word级别的交叉熵Loss,而最终我们的需要评价的其实是业务相关的句子级别点击率,这就导致了训练目标和业务指标不一致。

    解决这个问题,在我们的场景中有三个可行的方向,第一是在Context中显式地标注抽取式模型的Label,让模型学习到两者的差异;第二是在预测Decoder的Beam Search计算概率的同时,添加一个打分控制函数;第三则是在训练的Decoder中,建立一个全局损失函数参与训练,类似于NMT中增加的Coverage Loss。

    考虑到稳定性和实现成本,我们最终尝试了第一和第二种方式,其中第二种方式还是从商户文案迁移过来的,也会在下文进行介绍。在线上,这个尝试并没有在Combine的基础上取得更好的效果,但同样值得更加深入的探索。

    在线E&E机制

    最后,介绍一下前面提到过的标题E&E(Explore and Exploit,探索与利用)机制,用来持续获取标注数据,并提升在线自动纠错的能力。我们采用了一种贪心的Epsilon Greedy策略,并做了一点修改,类似经典的Epsilon算法,区别是引入创意状态,根据状态将Epsilon分成多级。目的是将比较好的创意可以分配给较大概率的流量,而不是均分,差的就淘汰,以此来提升效率。在初期优化阶段,这种方式发挥了很大的作用。

    具体我们根据标题和图片的历史表现和默认相比,将状态分成7档,从上到下效果表现依次递减,流量分配比例也依次降低,这样可以保证整个系统在样本有噪音的情况下实现线上纠偏。

    图17 在线E&E选优

    3.4 商户文案实践

    文案作为一个常见的创意形式,在O2O以商户为主要载体的场景下有三点需要:第一,赋予商户以内容调性,丰富创意;第二,通过内容化扩展投放的场景;最后,赋能平台的内容化升级,主要业务目标包括点击率、页面穿透率等等。

    文案生成和标题生成能够通用整体的生成模型框架,可以归为Data2Text类任务,最大区别是由文案的载体"商户"所决定。不同于内容,准确性的要求低很多,复杂度也大大降低,但同时为泛化能力提出了更高的要求,也带来了与内容生成不同的问题。首先在表示上,对商户的结构化理解变得尤其关键;其次在控制上,有D2T任务特有且非常重要的控制要求。前文也提到了生成一段文本从来不是难点,重要的是如何按照不同要求控制Seq生成的同时,保证很好的泛化性。下文也会分别介绍卖点控制、风格控制、多样性控制控制等几个控制方法。实现这样的控制,也有很多不同的思路。

    商户表示

    商户的表示抽象为Context,如下图中所示,主要分两部分。

    第一部分来源于商户的自身理解,一部分则来源于目标文本,两部分有一定交集。其中商户理解的数据为卖点或者Topic,在初期,为了挖掘商户卖点和Topic,我们主要使用成本较低、无需标注的LDA。但是它的准确性相对不可控,同时对产出的卖点主题仍需要进行人工的选择,以便作为新的标注,辅助后续扩展有监督的任务。我们通过Key和Value两个Field,来对卖点和主题进行共同表达(也存在很多只有Value的情况),比如下图这个商户“菜品”是个Key,“雪蟹”是Value,“约会”则仅是Value。随着时间的推移,后续我们逐渐利用平台商户标签和图谱信息,来扩展商户卖点的覆盖,以此丰富我们的输入信息。该部分在内容挖掘和NLP知识图谱的相关介绍中都有涉及,这里不再进行展开。

    第二部分目标文本来源,特意添加这部分进入Context,主要有三方面原因:

    • 第一,仅仅依靠商户理解的Context,在训练过程中Loss下降极慢,并且最终预测生成多样性不理想。本质原因是,目标文本内容与商户卖点、主题间的相关性远远不够。通过不同商户的集合来学习到这个表示关系,非常困难。
    • 第二,拓宽可用数据范围,不受商户评论这类有天然标注对的数据限制,从商户衔接扩展到卖点衔接,引入更多的泛化描述数据,比如各类运营文案等等。
    • 第三,这也是更为重要的一点,能够间接地实现卖点选择的能力,这个会在下文进行介绍。

    图18 商户表示

    控制端实现

    控制,在解码端表现为两类,一类我们称之为Hard Constrained(强控制),即在数据端给定(或没有给定)的信息,一定要在解码端进行(或不进行)相应描述,这个适用于地域类目等不能出错的信息。比如这家商户在上海,生成时不能出现除上海以外的地域信息,否则容易造成歧义。另一类称之为Soft Constrained(弱控制),不同于NMT问题,在文案生成上即便是完全相同的输入,不同的输出都是允许的,比如同一商户,最终的文案可以选择不同的卖点去描述不同的内容。

    这类同属受限优化的问题,前文提到过有两个思路方向:第一,通过构建机制来让模型自己学习到目标;第二,在Decoder的Beam Search阶段动态地加入所需的控制目标。我们使用两者相结合的方法,来完成最终的不同控制的实现。

    • 两端机制设计:在具体机制实现上,主要依赖在Input Context和Output Decoder两端同时生效,让Context的Hard Constrained来源于Output,从而使Model能够自动学习到强受限关系;而Soft Constrained则通过贝叶斯采样的方法,动态添加进Context,从而帮助Model提升泛化能力。
    • Decoder控制:简单介绍下Beam Search,前面提到过,文本生成的预测过程是按Word级进行的,每轮预测的候选是整个词汇空间,而往往一般的词表都是十万以上的量级。如果生成序列序列长度为N,最终候选序列就有十万的N次方种可能,这在计算和存储上绝不可行。这时候,就需要使用到Beam Search方法,每一步保留最优的前K(K一般为2)个最大概率序列,其他则被剪枝,本质上可以视作一个压缩版的维特比解码。

    我们在预测Beam Search阶段,除了计算模型概率外,额外增加下图中绿色部分的Fuction。输入为之前已生成的序列,具体计算逻辑取决于控制目标,可以自由实现。

    图19 Decoder Beam_Search控制

    下面简单介绍两个重要的控制实现:

    • 卖点控制:这是最重要的一个控制机制,我们整理了涉及到Hard Constrained的卖点和实体,重要的如地域、品类等,在目标理解过程中直接加入Context。对于Soft Constrained,我们通过卖点的共现计算一个简单的条件概率,并将卖点依此条件概率随机添加进Context中,从而让模型通过注意力学习到受限关系。最后在Decoder fuction部分,我们新增了一个Hard&Soft Constrained的匹配打分项,参与最终的概率计算。最终的实际结果,也非常符合我们的预期。
    • 风格控制:实现方法和卖点控制非常相似,只是这里的风格,其实是通过不同内容之间的差异来间接进行实现。比如大众点评头条、PGC类的内容与UGC类的的写作风格,就存在极大的差异。那么在文案上,比如聚合页标题上可能更需要PGC的风格,而聚合页内容上则需要UGC的风格。这样的内容属性,即可作为一个Context的控制信号,让模型捕获。

    3.5 内容聚合

    多样性控制

    多样性,在文案生成上是一个比较重要和普遍的问题,尤其对于同一个店铺、同一个卖点或主题同时生成N条内容的聚合页来说,更为突出。本质原因是,在解码预测Beam Search时永远选择概率最大的序列,并不考虑多样性。但是如果预测时采用Decoder概率Random Search的方法,则在通顺度上会存在比较大的问题。

    对此,我们直接对全局结果进行优化,在预测时把一个聚合页Context放到同一个batch中,batch_size即为文案条数,对已经生成序列上进行实体重复检测和n-gram重复检测,将检测判重的加一个惩罚性打分,这个简单的思想已经能非常好的解决多样性问题。

    图20 聚合页多样性控制

    4. 动态创意

    目前,很多搜索推荐等排序优化场景,都会将创意信息作为特征工程一部分添加进精排或召回模型。那如果把创意优化近似为一个内容级创意排序问题,也可以无缝衔接常用的Wide&Deep、DNN、FNN等CTR预估模型。但是这之前,需要明确一点非常重要的问题,即它与推荐精排模型的差异,它们之间甚至可能会相互影响,对此,提供下我们的思考。

    与精排模型的差异

    • 第一,精排模型能否一并完成创意的排序,答案显然是肯定的。但它的复杂度决定了能Cover候选集的上限,性能上往往接受不了叉乘创意带来的倍数增长。但此非问题的关键。
    • 第二,创意层排序在精排层之前还是之后,直接影响了创意模型的复杂度,也间接决定了其效果的上限,以及它对精排模型可能的影响程度,从而可能带来全局的影响。此没有最佳实践,视场景权衡。
    • 第三,精排模型与创意排序业务目标一致,但实现方式不同。精排模型通过全局排序的最优化来提升业务指标,而创意优化则是通过动态提升内容受众价值来提升业务指标。

    最后,我们回到用户视角,当用户在浏览信息流时,其实看到的只有创意本身(标题、图片、作者等信息),但用户却能从中感知到背后的诸多隐含信息,也就是CTR预估中的重要内容/商户类特征,诸如类目、场景、商户属性等。这个现象背后的本质在于,创意可以表征很多高阶的结构化信息。

    基于这一点,在创意优化的特征工程上,方向就很明确了:强化User/Context,弱化Item/POI,通过创意表征,来间接学习到弱化的信息从而实现创意层面的最优排序。该部分工作不仅仅涉及到文本,在本文中不再展开。

    用户兴趣与文本生成结合的可能性

    动态创意为文本生成提供了全新的空间,也提出了更高的要求。动态创意提升受众价值,不仅仅只能通过排序来实现,在正篇介绍的最后部分,我们抛出一个可能性的问题,供各位同行和同学一起思考。也希望能看到更多业界的方案和实践,共同进步。

    5. 总结与展望

    整个2018年,大众点评信息流在核心指标上取得了显著的突破。创意优化作为其中的一部分,在一些方面进行了很多探索,也在效果指标上取得了较为显著的收益。不过,未来的突破,更加任重而道远。

    2018年至2019年初,NLP的各个子领域涌现了非常多令人惊喜的成果,并且这些成果已经落地到业界实践上。这是一个非常好的趋势,也预示着在应用层面会有越来越多的突破。比如2019年初,能够续写短篇小说的GPT2问世,虽然它真实的泛化能力还未可知,但让我们真切看到了在内容受限下高质量内容生成的可能性。

    最后,回到初心,我们希望通过创意的载体显式地连接用户、商户和内容。我们能了解用户关注什么,知道某些内容表达什么,获知哪些商户好,好在哪里,将信息的推荐更进一步。

    参考资料

    • [1] Context-aware Natural Language Generation with Recurrent Neural Networks. arXiv preprint arXiv:1611.09900.
    • [2] Attention Is All You Need. arXiv preprint arXiv:1706.03762.
    • [3] Universal Transformers. arXiv preprint arXiv:1807.03819.
    • [4] A Convolutional Encoder Model for Neural Machine Translation. arXiv preprint arXiv:1611.02344.
    • [5] Don’t Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization. arXiv preprint arXiv:1808.08745.
    • [6] Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
    • [7] ELMO:Deep contextualized word representations. arXiv preprint arXiv:1802.05365.
    • [8] openAI GPT:Improving Language Understanding by Generative Pre-Training.
    • [9] Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.
    • [10] Tensor2Tensor for Neural Machine Translation. arXiv preprint arXiv:1803.07416.
    • [11] A Convolutional Encoder Model for Neural Machine Translation. arXiv preprint arXiv:1611.02344.
    • [12] Sequence-to-Sequence Learning as Beam-Search Optimization. arXiv preprint arXiv:1606.02960.
    • [13] A Deep Reinforced Model For Abstractive Summarization. arXiv preprint arXiv:1705.04304.
    • [14] SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient. arXiv preprint arXiv:1609.05473.
    • [15] Generating sequences with recurrent neural networks. CoRR,abs/1308.0850.

    作者简介

    • 忆纯,2015年加入美团点评,算法专家,目前负责点评信息流内容创意工作。
    • 杨肖,博士,2016年加入美团点评,高级算法专家,点评推荐智能中心内容团队负责人。
    • 明海,2016年加入美团点评,美团点评研究员,点评推荐智能中心团队负责人。
    • 众一,2016年加入美团点评,算法研发工程师,目前主要负责点评信息流创意相关算法研发工作。
    • 扬威,2018年初加入美团点评,算法研发工程师,目前主要负责点评信息流动态创意相关算法研发工作。
    • 凤阳,2016年加入美团点评,算法研发工程师,目前主要负责点评信息流内容运营算法优化的工作。

    展开全文
  • 信息流项目计划和思路

    千次阅读 2020-05-11 14:05:51
    信息流项目计划和思路 [文档副标题] [作者姓名] 2020-4-12 目录 一、对项目的认识. 4 1.用户需求和竞品. 4 2. 项目现状. 4 3. 发展前景. 4 二、项目的业务...
  • B站首页内容运营分析

    千次阅读 2020-07-23 16:13:44
    B站首页整体分析排行榜内容推荐内容标签化用户标签化探索B站优质内容之源 我们为什么要换首页? 换首页的目的是什么?改善用户体验?提高首页留存?提升CSDN品牌形象? 最终想要实现的关键成果是什么? 核心指标是...
  • 北京经纬中天信息技术有限公司针对鸿波网视的需求,提出了“以媒体内容管理为基础、与业务应用及运营模式有机连接、辅之以多种宽带增值应用”的体系结构设计思想,将鸿波网视宽带媒体运营平台划分成五部分,解决...
  • 信息流与搜索推广的区别: ①用户群体 信息流是泛人群,也就是潜在人群,需求意向不是那么高; 搜索推广的用户群体是意向用户,用户的需求意向高。 ②创意设计 信息流更多的是从用户的需求点出发,从用户的角度出发...
  • 信息流广告如何操作?一文搞懂!

    千次阅读 2019-08-15 18:46:25
    由于信息流广告的精准标签定向、内容原生、互动传播率高,不受广告位限制从而增加了媒体广告库存,整体市场规模仍继续增长 一、信息流广告原理 信息流广告也是竞价广告,只不过区别于传统搜索竞争对手排位之争,改为...
  • 信息流造就阿里 物流造就京东

    千次阅读 2016-04-19 15:09:01
    传统电商模式痛点 电商生意的核心要素是信息流、资金流、物流。过去,传统电商通过互联网获得了信息流的对称,做的是流量生意;现在电商作为渠道的时代已经过去,电商消费服务在空间上是分散而非聚合的,讲究的是...
  • 新媒体运营老司机,IT行业观察者,腾讯网、百度网、今日头条、搜狐网、网易新闻网、凤凰新闻网等网站知名专栏作者,《新媒体推广运营实战大全》 作者黎想切身为大家分享新媒体运营之一招学会全平台信息流优化!...
  • 在产生组播的PC上新建一个bat文件并输入以下内容: 第一行是切换到VLC安装目录,目录位置根据实际修改 第二行开始实际上一行内容,记事本自动换行了,其中http这串是TVH出来的串流地址,“kkk:kkk”是TVH的...
  • 什么叫"工作流"?什么叫"信息流"?

    千次阅读 2007-11-26 10:01:00
    工作(Workflow)就是“业务过程的部分或整体在计算机应用环境下的自动化”,它主要解决的是“使在多个参与者之间按照某种预定义的规则传递文档、信息或任务的过程自动进行,从而实现某个预期的业务目标,或者促使...
  • 此篇文章将详细的阐述运营级IPTV/OTT-TV应用媒体系统部署。提供此解决方案的是八百里网络科技有限公司。下面是运营级IPTV/OTT-TV应用媒体系统部署图解: 一、 机顶盒直播媒体系统 1.  电视信号直播模块...
  • 亲爱的朋友,大家好,我是猫哥,专注互联网创业项目8年之久,至今也还在这条道路上向前驰行,也是我们唯一弯道超车的...但说起容易做起难,不懂的如何操作运营,纷纷中招,不是被限降权,就是禁封封号!苦不堪言。
  • 新媒体运营应该掌握哪些基础常识

    千次阅读 2019-02-23 22:42:03
    我们常说的几类运营岗位——活动运营、产品运营、用户运营内容运营中,有那么一种,几乎包含了以上岗位所需的任一技能,可以说,做好它,就能做好运营中任何岗位,那就是活动运营。 活动运营能力可以说是运营的...
  • 第四方支付公司的盈利模式主要为收取第三方支付公司的佣金,第四方支付公司本身不参与任何资金流只参与信息流。 作者:Peter 刚入行支付产品的互联网金融新人 著作权归作者所有。商业转载请联系作者获得授权,非...
  • 本文从产品概述、数据报告、西瓜视频SWOT分析、竞品分析、运营策划五个角度,全面解析字节跳动旗下明星产品西瓜视频APP的运营策略。 金三银四,想在裁员/跳槽/转行的大潮中,获得一份大厂产品运营的岗位?你需要...
  • ”,“信息流的架构是怎么从0到1的?”,“电商中台架构是怎么样的?”,“能不能分享出来完整的架构图?它们是什么样的?”,“你们遇到过哪些问题?又是如何解决的?”,“技术选型落地是如何进行的?和业务是怎么...
  • VIEWGOOD为IPTV架构各层次都提供了相应的产品以满足运营商的需要,该架构中包括了电视节目采集制作系统、内容分发 系统、媒体后台管理、节目管理系统、媒体服务器、IPTV运营支撑系统等。这些产品涵盖了IPTV资产...
  • 头条号新手运营方案

    千次阅读 2018-11-02 13:50:11
    很多人在刚开始做运营选择平台的时候会根据运营中的流量、收益、难以程度选择平台进行运营,这其中头条对于新手的吸引力还是挺大的,头条属于一个综合性的平台可以运营图文、视频...1、内容需要原创搬运会被限 新...
  • 文章目录内容简介学会思考问题有效的市场调研用户调查反馈的营销数据分析 内容简介 面向零基础的小白,如果想从事数据分析运营这方面的工作总结运营工作中如何思考问题以及结合实际的数据进行简单的分析支持运营业务...
  • 什么是数字运营呢?使用Python进行数字运营的好处又在哪里? Python的前世今生 Python是一种面向对象的解释型计算机编程语言,由荷兰人Guido van Rossum于1989年发明,并于1991年首次公开发布。P开发的初衷实际上是...
  • QQ会员活动运营平台(AMS),是QQ会员增值运营业务的重要载体之一,承担海量活动运营的Web系统。在过去四年的时间里,AMS日请求量从200-500万的阶段,一直增长到日请求3-5亿,最高CGI日请求达到8亿。在这个过程中,...
  • 如何做好用户运营

    千次阅读 2017-09-12 23:02:12
    :用户运营的核心,是把活跃用户的规模往上提,方式有两种:开源和节流,开 的是注册的源、节的是流失的。还有一种,那就是保活跃,让不活跃用户变活跃、让活跃用户更活跃。本文据此分为三个部分:《开源:如何...
  • 协同运营,精细管理

    千次阅读 2014-10-21 16:01:40
    今天,在日益市场化的商业格局中,企业生存与发展面临着前所未有的竞争,在技术、产品、服务等业务领域...企业管理信息化的目的就是要为纷繁复杂的日常运营管理工作打造协同的秩序和效率。 基于观辰智能平台配置开发
  • 运营商流量劫持

    千次阅读 2016-08-05 10:16:32
    最近了解了一下运营商流量劫持,文章很多,但感觉很零碎,在这里把众多文章内容串一下,清晰一下思路。下面多是引用,引文在附录里,就不一一标识了。对于传统的流量劫持请见引文1,这里不作介绍。 运营商流量...
  • 抖音短视频APP——运营策略梳理

    千次阅读 2019-09-15 20:29:52
    本文试着梳理一下抖音APP运用AARRR模型的运营策略。
  • 业务运营指标体系(转载)

    万次阅读 多人点赞 2018-12-25 13:15:19
    数据的一大价值就是建立业务指标体系,用以监控业务日常运营,并预警业务问题,定位问题原因,这算是数据的最早应用形式,前期BI都主要是做指标体系和相应平台的工作。同时,业务的各类人员都应该了解业务的指标体系...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 96,133
精华内容 38,453
关键字:

信息流内容运营