精华内容
下载资源
问答
  • 标题生成
    千次阅读
    2017-06-27 21:58:10
    目前的思路很简单,就是一个Seq2Seq的模型,本质上是一个AutoEncoder。
    模型的输入是一个字符序列(1维向量),是新闻的正文。
    首先将序列中的词进行embedding(这里对中文处理,用的是字向量,没有做分词),变成2维的 (word_cnt,  dim)。(dim是字向量的维度)
    然后encoder是一层LSTM,取最后一步输出向量作为context vector(好像是这个名字?),是1维的 (dim)。之后decoder部分是一层LSTM,每一步输入都为context vector,取每一步输出,是2维的 (title_len, dim)。
    最后加一层Dense层,把输出的“词向量”(dim维的向量,每个对应一个词)映射到vocab_size维,然后进行softmax,作为输出词的概率分布。这里的输出为 (title_len, vocab_size)。
    Loss采用的是cross_entropy(negative log-likelihood),即对于真正标题中每个正确的词被取到的概率P,取-log,再平均,作为一个样本(一则新闻)的loss函数。


    目前简单起见,正文部分仅截取前30个字,标题仅截取前10个字,并且输出标题也限定为10个字。而且一个经验性的处理是把输入、输出都倒过来,也就是正文输入序列反序输入;最后输出的标题也会是反序的,因此再反序一次,变为正序。这样据说效果比较好,实验结果似乎也确实如此。



    具体实现使用Keras,目前LSTM用的最简单的,没有双向,也没有attention(暂时不会搞)。Loss函数的实现稍微遇到一点麻烦,因为这里一个样本的输出是2维的(每个词的预测概率分布),因此没法用原生的cross_entropy,需要自定义。需要注意Keras里面自定义Loss函数,其参数y_true和y_pred必须是相同的维度(3维对3维,包括batch_size这一个维度)(暂不确定是否要求相同的shape)。因此需要对于数据中的标题部分做处理,不能直接用字的id作为标签,需要转化为one-hot编码,这样才能与模型的输出保持相同维度。Loss函数实现如下,其实看起来很简单……只是当时不知道需要相同维度,坑了很久。
    def myLoss(y_true, y_pred):
    	    loss = K.mean(K.mean(K.batch_dot(y_true, -K.log(y_pred + 1e-6), axes=2)))
    	    return loss


    目前模型能正确运行,但是输出还不能看,基本都是同一个字,大多数是“国”字重复10遍。对于日本新闻可能是“日”字重复10遍,中国的可能是“中”字重复10遍。最好的一个输出某个俄罗斯的新闻,结果是“俄” * 9 + “国”。但这个仍然是不能看。


    下一步的话,可以先尝试简单的改进,多堆几层LSTM。还不行的话,尝试加入双向LSTM。之后再去尝试attention。

    更多相关内容
  • 文章双标题生成工具支持多种格式 批量生成 多种格式的双标题 速度快 双标题主要就是:【吸引用户点击】。【抢占多个关键词】 多种格式的双标题 速度快 双标题主要就是:【吸引用户点击】。【抢占多个关键词】 ...
  • 标题生成神器

    2019-02-22 09:12:10
    标题生成神器,可以自动生成标题。SEO的神器。已经亲测免费使用。
  • 爆款标题生成

    2018-10-16 17:34:26
    填写关键词自动生成爆款网文标题,一键转化,阅读40W+
  • 实用代码 25 图像标题生成实用代码 25 图像标题生成实用代码 25 图像标题生成实用代码 25 图像标题生成实用代码 25 图像标题生成实用代码 25 图像标题生成实用代码 25 图像标题生成实用代码 25 图像标题生成实用代码...
  • 淘宝商品标题生成器-v3.1免费绿色版

    热门讨论 2012-11-28 19:23:59
    亲们,感谢大家一直以来的支持,也感谢大提出的宝贵的意见,宝贝标题生成器升级到v3.0啦! 大家经常在上传商品时为商品标题而苦恼,不知道什么样的标题淘宝搜索排行高,不知道该给自己商品加哪些关键字!以下这款软件...
  • 亲们,感谢大家一直以来的支持,也感谢大提出的宝贵的意见,宝贝标题生成器升级到v2.0啦! 宝贝标题生成器v2.0新特性: 1.多关键字输入 2.组全选功能 3.多关键字删除 4.多关键字分类转移功能
  • 自动根据网上实时热点生成大量抓眼球爆文标题,适合微信公众号打造10W+爆文起标题参考使用,3月14日刚使用软件生成的抓眼球标题举例(可根据自己的行业进行自定义设置)
  • 软件功能介绍: 四大接口:百度,360,搜狗,今日头条 多文件,大批量,挂机全自动生成,自动导出表格 支持百万级数据生成
  • 我自己每天要发布十几家B2B平台,而且每次发布的标题又不要重复,一天就是请人整理标题也要花费好长时间,...利用本软件自定义组合您的关键词可以快速的生成几百或者几千个不同的标题,让你的信息在互联网上遍地开花
  • 底端标题生成工具.xla

    2013-09-02 09:41:05
    excel 2003 底端 标题 生成 工具 xla
  • 内容,已经成了我们生活中必不可少的成分,无论是小红书、抖音、爱奇艺等...每天有不可计数的内容被生成,同时又被无数人的消费着,通过手机、电脑沉浸在一个个的 APP 中,用自己的时间、精力、金钱为各种内容买单。

    内容,已经成了我们生活中必不可少的成分,无论是小红书、抖音、爱奇艺等文本、短视频以及视频内容还是腾讯、网易的游戏内容。每天有不可计数的内容被生成,同时又被无数人的消费着,通过手机、电脑沉浸在一个个的 APP 中,用自己的时间、精力、金钱为各种内容买单。

    内容的生产方式也是随着时代的变化在变化的,从最早的 PGC(Professionally Generated Content)到后来的 UGC(User Generated Content),以及现在逐渐火热的 AIGC(AI Generate Content),面对庞大的内容消费市场,我们如何通过 AIGC 的方式来进行内容生产呢?本文以文本内容为例,提供了一种思路,详情见正文,其他方法见后续文章。

    在这里插入图片描述


    keywords: AIGC、摘要生成、文本生成、NLP、内容创作、AI创作
    

    一、概述

    一篇文本内容,一般有标题+正文的方式,正文通常是图文或者纯文本的形式。本文以纯文本为例。

    生成思路:通过已有的原文数据,通过一定的手段,生成新的标题和正文数据

    在这里插入图片描述

    巧妇难为无米之炊,创业还需要启动资金呢,我们至少有一批种子数据,而新内容是在已有的原文基础上进行的生成,
    新内容的标题和正文,可以通过 NLP 中文本生成的方法获取,即标题生成和摘要生成。

    摘要生成,一般包括抽取式和生成式,抽取式是从原文中抽取关键的句子组成摘要;生成式则是在理解原文的基础上进行语言的重新组织表达。很明显后者的难度要远大于前者。

    二、过程

    从上面我们知道,新内容我们拆分为了标题和正文的分别生成,那么,新内容的创作问题转换为了标题生成和正文生成的 NLP 生成问题了,
    而这两个问题在 NLP 领域已经进行了深刻的研究并取得了不错的成果。

    标题生成

    标题生成可以看做是摘要生成的一个特例,相比摘要需要一定的长度和前后连贯性的要求,标题则需要新颖性、简短性的要求。两者的模型一般来说结构相同,训练数据格式也经常相同。

    目前标题生成开源模型有:

    • tensorflow GPT2: https://github.com/liucongg/GPT2-NewsTitle
    • paddle Bert: https://aistudio.baidu.com/aistudio/projectdetail/3463042
    • paddle GPT2: https://aistudio.baidu.com/aistudio/projectdetail/2340166

    基于公开的开源模型能够在通用数据集上得到一个较好的效果,但如果迁移到自己的领域,可能效果就不尽如人意,需要通过一定的微调实现领域知识的学习。

    正文生成

    新内容的正文,或者说摘要也是通过 NLP 生成模型来实现,但目前公开的模型,在中文数据集上,实验效果和实际效果存在一定的差异,或者说是数据集有效性,
    目前效果比较好的几个摘要生成开源模型如下:

    • 科学空间: https://kexue.fm/archives/8046/comment-page-1
    • GPT2: https://zhuanlan.zhihu.com/p/113869509
    • GPT2: https://github.com/qingkongzhiqian/GPT2-Summary
    • bert: https://github.com/dmmiller612/bert-extractive-summarizer
    • bert: https://geek.digiasset.org/pages/nlp/nlpinfo/bert-text-summarizer-chinese/
    • tianma: https://github.com/google-research/pegasus
    • https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/106893673

    利用开源模型,或者进行微调后的开源模型,将原文转换为一定长度和描述的摘要,生成的摘要就可以当做新内容的正文啦。

    三、分析

    从上面的过程中,我们可以看出,生成的结果是两个模型结果的组合,并且两个模型都是压缩型的模型,将长文本转换为短文本,那么,相应的

    • 新内容的篇幅一定小于原文的长度,因为无论是标题还是摘要都是从原文中进行的概括总描述
    • 理论上,新内容的质量不高于原文,上限是原文的质量等级。

    在做 NLP 生成模型中,标注数据的缺失是普遍遇到的问题。这需要一定的人力。

    好啦,AIGC 方式进行内容生成的第一个方法就是这样啦,其他的方法,详见后续文章啦~

    元宵节快乐~

    展开全文
  • 标题生成任务中,现有方法多以语句或短语为基本处理单元,利用单语句压缩技术或语句合成技术来生成最终的标题。这些方法或因语句过于稀疏而缺失篇章主要信息,或因短语合成缺乏语法规则约束而导致标题可读性差。提出...
  • 我自己每天要发布十几家B2B平台,而且每次发布的标题又不要重复,一天就是请人整理标题也要花费好长时间,...利用本软件自定义组合您的关键词可以快速的生成几百或者几千个不同的标题,让你的信息在互联网上遍地开花
  • 一款自动生成各种抓眼球标题的小工具,可以自动生成标题,对于编辑人员就是一款利器。可自定义文章前缀、衔接事件动作、后缀结果,可实时植入当前热点,比较适合自媒体标题。现在很多文章为了吸引公众视线,标题写得...
  • 淘宝商品标题生成

    2012-04-18 19:22:44
    大家经常在上传商品时为商品标题而苦恼,不知道什么样的标题淘宝搜索排行高,不知道该给自己商品加哪些关键字!以下这款软件可以帮大家解决这些问题,让你轻松的生成自己商品的标题
  • 标题:自动生成简短文章的标题
  • 标题生成器v3破解版

    2014-11-08 16:18:39
    大家经常在上传商品时为...以下这款软件可以帮大家解决这些问题,让你轻松的生成自己商品的标题!大家可以下载用用,完全免费的,大家对这款软件有什么意见与建议或是疑问的都可以找我哦!谢谢支持,觉得好用的顶我哦!
  • CV之ICG:计算机视觉之图像标题生成(Image Caption Generator)算法的简介、使用方法、案例应用之详细攻略 目录 图像标题生成ICG算法的简介 图像标题生成ICG算法的使用方法 图像标题生成ICG算法的案例应用 ...

    CV之ICG:计算机视觉之图像标题生成(Image Caption Generator)算法的简介、使用方法、案例应用之详细攻略

     

     

    目录

    图像标题生成ICG算法的简介

    图像标题生成ICG算法的使用方法

    图像标题生成ICG算法的案例应用


     

     

    图像标题生成ICG算法的简介

    1、相关论文
    (1)、《Show and Tell: A Neural Image Caption Generator》
    Vinyals O , Toshev A , Bengio S , et al. Show and Tell: A Neural Image Caption Generator[J]. 2014.
    Oriol Vinyals, Alexander Toshev, Samy Bengio, and Dumitru Erhan(2015): Show and Tell: A Neural Image Caption Generator. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
    百度学术:Show and Tell: A Neural Image Caption Generator
    arXiv:https://arxiv.org/abs/1411.4555  arXiv
    PDF链接01:https://arxiv.org/pdf/1411.4555.pdf
    PDF链接02:https://arxiv.org/pdf/1411.4555v2.pdf

    NIC算法模型

              NIC, our model, is based end-to-end on a neural network consisting of a vision CNN followed by a language generating RNN. It generates complete sentences in natural language from an input image, as shown on the example above.


     

     

     

     

    图像标题生成ICG算法的使用方法

    后期更新……

     

     

     

    图像标题生成ICG算法的案例应用

    1、源自《Show and Tell: A Neural Image Caption Generator》

     

     

     

     

     

     

     

    展开全文
  • 文章标题生成评价指标 摘要:这里是关于自动文摘生成论文中常用的相关评价指标(Rouge and Meteor )的描述.Bleu指标大家比较熟悉,这里不做过多的解释。关于Rouge 是评估自动文摘以及机器翻译的一组指标。它们过将...

    文章标题生成评价指标

    摘要:这里是关于自动文摘生成论文中常用的相关评价指标(Rouge and Meteor )的描述.Bleu指标大家比较熟悉,这里不做过多的解释。关于Rouge 是评估自动文摘以及机器翻译的一组指标。它们过将自动生成的摘要或翻译与一组参考摘要(人工生成的)进行比较计算,得出相应的分值,用来衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。Meteor 是2004年由Lavir发现在评价指标中召回率的意义后提出的。

    Rouge-1、Rouge-2、Rouge-N

    相关文献[1]中对Rouge-N的定义是这样的;

    Rouge_N = \frac{\sum_{S \in \{ ReferenceSummaries \}} \sum_{ {gram}_n \in S } {Count_{match}({gram}_n) } } {\sum_{S\in\{ReferenceSummaries\}}\sum_{​{gram}_n \in S}Count(gram_n))}

    分母是n-gram的个数,分子是参考文献摘要和自动摘要共有的n-gram的个数。直接借用一个例子说明:
    生成的摘要:

      1 the cat was found under the bed 

    参考摘要:

         the cat was under the bed

    然后去看一个关于n-gram的分析表格。

    Rouge_1(x_1,Y)=\frac{6}{6}=1.0,分子是待评测摘要都出现的1-gram的个数。,分子是参考摘要的1-gram个数。(其实分母也可以是待评测摘要的,但是在精确率和召回率之间),我们更关心的是召回率Recall, 同时这也和上面ROUGN_N的公式相同,同样,Rouge_2(X_1,Y)=\frac{4}{5}=0.8

    Rouge-L

    L即是LCS最长公共子序列,因为Rough-L使用了最使用了最长公共子序列。Rouge-L计算方式如下:

    R_{lcs}=\frac{LCS(X,Y)}{m}

    P_{lcs}=\frac{LCS(X,Y)}{n}

    F_{lcs}=\frac{(1+\beta^2)R_{lcs}P_{lcs}}{R_{lcs}+\beta^2P_{lcs}}

    其中LCS(X,Y)是X和Y的最长共公子序列的长度,m,n分别表示参考摘要和自动摘要的长度(一般就是所含词的个数),R_{lcs},P_{lcs}分别表示召回率和准确率。最后的F_{lcs}即是我们说的Rouge-L。在DUC中, \beta被设置为一个很大的数,所以Rouge_L几乎考虑了R_{lcs},与上文所说的一般只考虑召回率对应。

    Rouge-L 的改进版[1]--------Rouge-W

    Meteor

    Meteor 标准与2004年由Lavir发现在评价指标中召回率的意义后提出,Meteor测度基于单精度的加权调和平均数和单字召回率

    其目的是解决BLEU标准中固有的缺陷,Meteor也包括其他指标没有发现一些其他功能,如同义词匹配等。计算METEOR需要预先给定一组校准(alignment)mm,而这一校准基于WordNet的同义词库,通过最小化对应语句中连续有序的块(chunks)chch来得出 。

    则METEOR计算为对应最佳候选译文和参考译文之间的准确率和召回率的调和平均:

    Pen=\gamma (\frac{ch}{m})^{\theta}

    F_{mean}=\frac{P_m R_m}{ {\alpha}P_{m}+(1-\alpha)R_{m}}

    P_{m}=\frac{|m|}{\sum_{k}h_k(c_i)}

    R_m=\frac{|m|}{\sum_{k}h_k(s_{i,j})}

    METEOR=(1-Pen)F_{mean}

    其中,\alpha,\gamma\theta均为用于评价的默认参数。

    [1]http://www.aclweb.org/anthology/W04-1013
    [2]M. Denkowski and A. Lavie, “Meteor universal: Language specific translation evaluation for any target language,” in EACL Workshop on Statistical Machine Translation, 2014.

     

     

     

     

     

     

    展开全文
  • 适用于阿里国际站标题设置,标题组合,简洁易懂,傻瓜式操作,比较适合刚入门的新手。至少输入两行数据,多个元素换行分开,点击生成按钮,自动生成标题
  • 淘宝标题生成器功能说明: 1.根据事先准备好的词库,具体来源可以是生意参谋或者TOP20W等等 2.导入词库可以填入中心词,填入要生成的个数 3.根据以上条件可以生成自定义个数的标题个数 本软件采用随机组合方式。
  • 今天小编就为大家分享一篇python根据文章标题内容自动生成摘要的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
  • 标题党文章生成

    万次阅读 2019-12-23 23:11:00
    今天推文写点啥的发生,到底需要如何做到,不今天推文写点啥的发生,又会如何产生。 了解清楚今天推文写点啥到底是一种怎么样的存在,是解决一切问题的...本文由“标题党文章生成器”生成(玩笑)  
  • word按标题自动生成序号

    千次阅读 2022-02-14 09:42:29
    word按标题自动生成序号@TOC 1、按标题色设置文档格式; 2、导航显示,是在“视图”导航窗体上面显示; 3、选择自动生成序号的格式; 4、选中后,自动可自动自动添加序号; 5、设置序号生成规则;可点击“自定义...
  • 短视频标题自动生成工具,助你打造爆款标题,短视频标题自动生成工具的重要性在自媒体这个行业不言而喻,好的标题能够带来更好的流量,就算是相同的内容,取得不一样的两个标题,也会带来不同的效果。 很多自媒体人...
  • 百度相关关键词批量采集并生成标题
  • 使用神经网络为图像生成标题

    千次阅读 2020-07-29 09:01:30
    本文将介绍神经网络的一个这样的应用,并让读者了解如何使用CNNs和RNNs (LSTM)的混合网络实际为图像生成标题(描述)。我们在这个任务中使用的数据集是流行的flickr 8k图像数据集,它是这个任务的基准数据,可以通过...
  • 帝国CMS根据标题自定义自动生成标题图片插件
  • 批量修改可以点击视图 --> 导航窗格,在里面快速用格式刷刷标题格式(格式刷快捷键ctrl+shift+c、ctrl+shift+v,居中显示快捷键ctrl+e) 标题搞好了,其他的排版都简单,最后在开头直接生成个目录就行了, 目录生成 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 443,801
精华内容 177,520
关键字:

标题生成