精华内容
下载资源
问答
  • 由于目前没有公开的免费的中文文本摘要数据集,正好在之前的项目中有收集过这样的数据。现在把之前整理的数据公开,所有人都可以免费下载使用,希望能成为一个有用的中文文本摘要数据集。 英文名称 Chinese ...

    背景

    由于目前没有公开的免费的中文短文本摘要数据集,正好在之前的项目中有收集过这样的数据。现在把之前整理的数据公开,所有人都可以免费下载使用,希望能成为一个有用的中文短文本摘要数据集。

    英文名称

    Chinese Short Text Summarization Dataset

    收集方式

    数据来源于新浪微博主流媒体发布的微博。
    例如:
    微博示例一
    微博示例二
    微博示例三
    如上的三条微博所示中,红框中的文本作为短文本的摘要,其他的内容作为短文本的内容。

    数据量

    在这个版本中,一共 679898 条数据,分为两个文件:

    文件名称 说明
    train_text.txt 短文本的内容,约100-200字
    train_label.txt 短文本的摘要,约10-20字

    下载方式

    百度网盘:https://pan.baidu.com/s/1NWe6K33GMTp4Wk7CwaGotA
    密码:4k12

    Cite as:

    {
    Author: He Zhengfang
    Dataset Name: Chinese Short Text Summarization Dataset
    Publish Date: 20th June, 2018.
    }

    展开全文
  • 该数据集为大型中文文本摘要数据集。 Application form.pdf LCSTS A Large-Scale Chinese Short Text Summarization Dataset_datasets.txt
  • NLP方向文本摘要,文本分类,等方向可采纳! The LCSTS dataset includes two parts: /DATA: 1. PART I: is the main contents of LCSTS that contains 2,400,591 (short text, summary) pairs. It can be used to ...
  • 文本摘要常用数据集和方法研究综述 [1]侯圣峦,张书涵,费超群.文本摘要常用数据集和方法研究综述[J].中文信息学报,2019,33(05):1-16. 为了解决抽取式摘要方法缺少训练数据的问题,已有方法通常将用于生成式文本...

    [1]侯圣峦,张书涵,费超群.文本摘要常用数据集和方法研究综述[J].中文信息学报,2019,33(05):1-16.


    在这里插入图片描述

    为了解决抽取式摘要方法缺少训练数据的问题,已有方法通常将用于生成式文本摘要的数据集进行简单转换,例如, Cheng等【参考文献6】将CNN/ Daily Mail数据集中的每篇文本中句子与生成式摘要句计算匹配度,匹配度较高的句子作为抽取式摘要句,构成抽取式摘要方法的数据集。

    数据集Gigaword、 CNN/ Daily mail、 LASTS等都是十万级规模,可满足深度神经网络训练的需求。

    LCSTS

    LCSTS(large scale Chinese short text summa rization dataset)链接:http://icrc.hitsz,educn/article/Show/139.html. 是【23—Hu B Chen Q, Zhu F. LCSTS:A large scale Chinese short text summarization dataset】从新浪微博获取的短文本新闻摘要数据库,规模超过200万。

    在这里插入图片描述

    随着微博等社交媒体软件的普及,部分工作提出了面向社交媒体文本的文本摘要算法。由于中文社交媒体文本大都是短文本,具有篇幅较短、存在较多噪声等特点,传统的文本摘要方法在这类文本上往往效果较差。

    数据集定义

    在这里插入图片描述

    【24—Ma s, Sun X, XuJ, et al. Improving semantic relevance for Sequence-to- Sequence learning of Chinese social media text summarization】提出面向中文社交媒体短文本摘要的方法,基于深度学习的抽取式摘要,采用循环神经网络的“编码器–解码器”和“注意力”机制。较Hu等【23】的方法有所提升。

    NLPCC

    自然语言处理与中文计算会议( CCF Conference on Natural Language Processing &.Chinese Computing, NLPCO)是由中国计算机学会(CCF)举办的自然语言文本测评会议,包括文本摘要、情感分析、自动问答等任务。 http://tcci.ccf.org.cn/conference

    数据集定义

    特点:新闻文本不分领域、不分类型,篇幅较长。

    在这里插入图片描述

    在此数据集上,【25—莫鹏,胡珀,黄湘冀,等。基于超图的文本摘要与关键词协同抽取研究】提出基于超图的文本摘要和关键词生成方法

    将句子作为超边(hyperedge),将词作为节点(vertice)构建超图(hypergraph)。

    利用超图中句子与词之间的高阶信息来生成摘要和关键词。

    【文献26—Xu H, Cao Y, Shang Y, et al. Adversarial reinforcement learning for Chinese text summarization】针对已有的利用极大似然估计来优化的生成式摘要模型存在的准确率低的问题,提出了
    一种基于对抗增强学习的中文文本摘要方法,提升了基于深度学习方法在中文文本摘要上的准确率。
    方法在LCSTS和NLPCC2015数据集上进行了测评。

    自建数据集及其对应方法

    基于统计的方法

    常用的特征:句子所在位置、TF-IDF、n-gram等

    文献27【An effective sentence-extraction technique using contextual information and statistical approaches for text summarization. Pattern Recognition letters,2008.】,提出一种基于上下文特征和统计特征的摘要句提取方法

    将每两个相邻的句子合并为一个二元语言模型伪句子( Bi-Gram pseudo sentence,BGPS),BGPS包含比单个句子更多的特征根据统计方法对BGPS进行重要程度打分,选取分值较高的BGPS对应的句子作为摘要句。

    基于统计的文本摘要方法较为直观,抽取的特征相对简单,因此方法较易实现,但准确率较低。这类方法同样适用于中文文本摘要任务。

    基于图模型的方法

    文献【Comments oriented document summarization:understanding documents with readers’ feedback】中,对于web文本,不仅考虑文本内容本身,还将读者的评论信息加入文本摘要抽取

    将评论作为节点,评论之间的关系作为边,利用图模型对评论的重要程度进行打分。两种方法:

    • 通过评论的关键词来对候选摘要句进行打分;
    • 将原文本和评论组成一个“伪文本”,对其进行打分。

    文献29【林莉媛,王中卿,李寿山,等.基于PageRank的中文多文档文本情感摘要[J]. 中文信息学报,2014】,提出基于情感信息的PageRank多文本情感摘要方法,考虑了情感和主题两方面信息,数据集来自亚马逊中文网https://www.amazon.cn,收集15个产品的评论语料,每个产品包括200条评论,自建了包括15个主题的多文本摘要数据集。选取48个句子作为该主题的摘要句。

    基于词法链的方法

    文献31【Chen Y wang x, Guan Y. Automatic text summarization based on lexical chains】,首次将词法链应用到中文,提出了基于词法链的中文文本摘要。

    首先利用HowNet作为词法链构建知识库,然后识别强词法链,最后基于启发式规则选取摘要句。

    文献32【Yu L, Ma J, Ren F,et al. Automatic text summarization based on lexical chains and structural features 】,提出了基于词法链和结构特征的中文文本摘要方法。

    同样利用HowNet构建词法链,结构特征包括句子的位置(如是否为首句)等。利用词法链特征和结构特征进行加权对句子的重要程度进行打分,选取摘要句。

    文献33【Wu X,Xic F, Wu U, et al. PNFS; personalized web news filtering and summarization】,提出了个性化Web新闻的过滤和摘要系统PNFS

    总结并提取能够刻画新闻主题的关键词。

    关键词的提取利用基于词法链的方法[34],利用词之间的语义相关性进行语义消歧并构建词法链。

    传统词法链主要由名词和名词短语构成,缺少动词等所包含的语义信息。文献35,提出了全息词法链,包括名词、动词、形容词三类词法链,包括了文章的主要语义信息。根据句子中的全息词法链中的词特征,利用逻辑回归、支持向量机等机器学习方法学习摘要句。

    基于篇章结构的方法

    文献36【王继成,武港山,周源远,等.一种篇章结构指导的中文Web文档自动摘要方法】,提出中文Web文本自动摘要方法,首先分析段落之间的语义关联,将语义相近的段落合并,划分出主题层次,进而得到篇章结构。在篇章结构的指导下,使用统计的方法,结合启发式规则进行关键词和关键句子的提取,最终生成中文Web文本的摘要。

    基于机器学习的方法

    文献37【Hu P, He T, Ji D. Chinese text summarization based on thematic area detection】,提出了基于主题的中文单文本摘要方法

    首先通过段落聚类发现文本所反映的主题,然后从每一个主题中选取与主题语义相关性最大的一句话作为摘要句,最后根据选取的摘要句在原文本中的顺序组成最终的摘要。

    文献38【Baumel T, Cohen R, Elhadad M. Query-chain focused summarization】,提出了基于LDA主题模型的新型文本摘要任务:面向查询的更新摘要方法。

    1. 更新摘要是:已经提取出来摘要句,在避免冗余的前提下,将新内容加入摘要中。
    2. 面向查询的摘要:提取出与查询相关的重要句子作为摘要句。

    综合以上两点:用户的第n条查询语句得到的结果要在前n-1条查询语句结果的摘要上进行更新摘要。

    文献40【庞超,尹传环.基于分类的中文文本摘要方法.计算机科学,2018】,结合循环神经网络的“编码器–解码器”结构和基于分类的结构,提出了一种理解式文本摘要方法。同时在此结构中使用了“注意力”机制,提升了模型对于文本内容的表达能力。

    文献40【庞超,尹传环.基于分类的中文文本摘要方法.计算机科学,2018】,结合循环神经网络的“编码器–解码器”结构和基于分类的结构,提出了一种理解式文本摘要方法。同时在此结构中使用了“注意力”机制,提升了模型对于文本内容的表达能力。

    展开全文
  • 并没有看到你有关文本摘要的文章。另外,我在网上找了一下,只找到两个数据集:LCSTS、教育培训行业抽象式自动摘要中文语料库。有一个NLPCC的数据链接应该是失效了。请问还有其他什么中文数据集...
  • 本文章主要参考了该博客,并在其上做了适当修改和补充。感谢作者。... 文章目录前言一、安装bs4和tqdm?二、完整代码代码部分跟是在文章头的博客基础上做了修改。...PART_III.txt 共计1106对 摘要-文本

    本文章主要参考了该博客:https://blog.csdn.net/u012495579/article/details/103697824
    本人在其基础上做了适当修改和补充。感谢作者。


    前言

    LCSTS数据集中三个部分

    PART_I.txt 共计2400591对 摘要-文本对,主要用于训练模型。

    PART_II.txt 共计10666对 摘要-文本对,该部分从PART_I中抽样,并人工对每对摘要-文本对进行评分(1-5分),分数越高证明摘要与文本越贴切,抽样证明评分在1-2的数据占不到20%,证明可以通过有监督学习过滤掉PART_I中的噪声。
    我的理解是该部分的数据是用来分析PART_I的数据构成,数据分布情况的。

    PART_III.txt 共计1106对 摘要-文本对,经过一次修改后,现PART_III与PART_I完全独立(没有重复),该部分数据同样进行了评分,选取分值在5-3的摘要-文本对进行测试(因为这部分数据的摘要-文本对比较贴合)。

    由于PART_I.txt 体量庞大。预处理问题主要出现这部分。


    一、安装bs4和tqdm?

    Terminal 终端输入:

    python -m pip install --upgrade pip
    pip install Beautifulsoup4
    pip install tqdm
    

    二、完整代码

    代码如下(示例):

    在这里插入代码片# -*- coding: UTF-8 -*-
    """
    数据预处理
    """
    
    from bs4 import BeautifulSoup
    import os
    from tqdm import tqdm
    
    DATASET_NUM = 1000
    # 建议一个一个来处理
    Input = { 'train_dataset': './SourceDataset/PART_I.txt',
            #'test_dataset': './SourceDataset/PART_III.txt',
            # 'test_dataset': './SourceDataset/PART_II.txt',
            #'train_dataset': './SourceDataset/PART_I_2.txt',    # 出错后复制剩余内容到新文档
             }
    
    Output_Dir = './ProcessedDataset'
    
    for key in Input:
        print('start process :{}\n'.format(key))
        src_file = open(os.path.join(Output_Dir, key + '_2.src'), 'a+', encoding='utf-8')
        tgt_file = open(os.path.join(Output_Dir, key + '_2.tgt'), 'a+', encoding='utf-8')
    
        input_file_path = Input[key]
        account = 0
        flag = 0
        with open(input_file_path, encoding='utf-8') as file:
            while flag != 1:
                contents = ''
                for item in range(DATASET_NUM):
                    i = 9     # PART_I  i=8  PART_II和PART_III i = 9
                    while i > 0:
                        text = file.readline()
                        if not text:
                            flag = 1
                            break
                        contents = contents + text
                        i -= 1
                    if flag == 1:
                        break
                    account += 1
    
                print('account:', account)
                soup = BeautifulSoup(contents, 'html.parser')
                for doc in tqdm(soup.find_all('doc')):
                    short_text = doc.find('short_text').get_text()
                    summary = doc.find('summary').get_text()
                    src_file.write(short_text.strip() + '\n')
                    tgt_file.write((summary.strip() + '\n'))
    
        src_file.close()
        tgt_file.close()
    

    三、代码修改细节

    (1)由于我电脑的运行内存不足,无法一次读取LCSTS 中PART_I.txt的全部内容。一次读取所有摘要-文本对会导致电脑直接卡死,只能强制关机。通过观察PART_I每条文本共8行数据;PART_II和PART_III每条文本共9条数据。

    <doc id=0>
        <summary>
            修改后的立法法全文公布
        </summary>
        <short_text>
            新华社受权于18日全文播发修改后的《中华人民共和国立法法》,修改后的立法法分为“总则”“法律”“行政法规”“地方性法规、自治条例和单行条例、规章”“适用与备案审查”“附则”等6章,共计105条。
        </short_text>
    </doc>
    

    既然不能一次读取所有数据,只能选择分批读取。每次读取若干条文本N ,共计N * 9 行数据。我定义了每次都1000对摘要-文本对。

    for item in range(DATASET_NUM):
    	i = 9    # PART_I  i=8  PART_II和PART_III i = 9
        while i > 0:
        	text = file.readline()
            if not text:    # 非空
            	flag = 1
                break
            contents = contents + text   # 将读取的一行追加到末尾
            i -= 1
            if flag == 1:
            	break
            account += 1    # 成功读去摘要-文本对 一条
    

    (2)在对PART_I.txt文档处理的时候,当到达第2081211条的时候会出现错误,程序退出。问题原因未知。
    <doc id=2081211>
        <summary>
            RIRI&#M.A.C#圣诞限量彩妆系列
        </summary>
        <short_text>
            今个系列特别推出指甲油、亮泽防水眼线液、炫目珍珠眼影组合、古铜蜜粉饼,与及双头设计的眼影扫。以独特的珍珠白色为包装,与RiRi签名的玫瑰金装饰细节点缀。1213日限量登场!
        </short_text>
    </doc>
    

    解决方法是在PART_I.txt文档中找到2081211对应位置,按下Ctrl+Shift+End则可以选中该行以下内容,复制到新的txt文件中,由于保存处理后数据的文档的打开方式是“a+”追加模式的。我们只需要单独在处理剩余的部分,就可追加到文档末尾。

    Input = {'train_dataset': './SourceDataset/PART_I.txt',
            #'test_dataset': './SourceDataset/PART_III.txt',
            #'test_dataset': './SourceDataset/PART_II.txt',
            #'train_dataset': './SourceDataset/PART_I_2.txt',    # 出错后复制剩余内容到新文档
             }
    
    Output_Dir = './ProcessedDataset'
    
    for key in Input:
        print('start process :{}\n'.format(key))
        src_file = open(os.path.join(Output_Dir, key + '_2.src'), 'a+', encoding='utf-8')
        tgt_file = open(os.path.join(Output_Dir, key + '_2.tgt'), 'a+', encoding='utf-8')   # 追加模型
    

    总结

    由于电脑的硬件条件关系,对于庞大的数据集处理往往存在很多困难。根本原因在于钱不到位,哈哈哈哈哈哈哈。那就想些办法绕过它。再次感谢文章开头的博客。

    展开全文
  • 参考的项目 1、关于GPT2模型 可以参考图解GPT2 2、我的工作 1、引入分词 这里主要是为了能够本地训练,出于硬件的限制,...2、关于数据集 这里使用了lcsts的部分数据,我分别在5w和10w规模下训练得到了两个模型。 模型

    参考的项目

    1、关于GPT2模型

    可以参考图解GPT2

    2、我的工作

    1、引入分词

    这里主要是为了能够本地训练,出于硬件的限制,采用Bert的默认分词,中文默认一个字就是一个词,这样产生的向量会比较长,我的电脑无法复现,故首先对样本进行jieba分词。
    由于采用了分词,原来的词典就不能用了,这里借鉴了我的BERT!改改字典,让BERT安全提速不掉分(已开源)的工作,我修改了部分代码,使其能够用于我的项目。

    2、关于数据集

    这里使用了lcsts的部分数据,我分别在5w和10w规模下训练得到了两个模型。
    在这里插入图片描述
    模型的稳定性会随着数据集的扩大而增强。

    3、图形化界面

    在这里插入图片描述

    3、数据集和训练好的模型:

    数据集:
    链接:https://pan.baidu.com/s/1J5A3tVZscFylmtFTYVaQaQ
    提取码:qosx
    模型:
    链接:https://pan.baidu.com/s/12I5GpQRsTj-xXrlVmc8-nQ
    提取码:ifmf

    项目地址

    展开全文
  • CNN-中文文本分类-开源项目-自定义数据集

    千次阅读 热门讨论 2018-11-08 18:30:20
    选择了一道中文文本分类的题目。 今日头条用户画像 选题背景: 随着机器创作能力越来越强,今后社会媒体上将会产生越来越多的机器创作者自动生产的内容。有效识别出哪些是人类作者生产的内容,哪些是机器作者生产的...
  • 公众号关注“ML_NLP”设为 “星标”,重磅干货,第一时间送达!作者:哈工大SCIR 冯夏冲...在早些年,该方向一直以DUC,CNNDM,Gigaword等数据集为核心进行研究[2],并取得了显著的进展。为了满足各种需求,近些年,...
  • 基于循环神经网络和注意力机制的Sequence-to-Sequence模型神经网络方法在信息抽取和...采用中文摘要数据集LCSTS为数据源进行实验,结果表明所提方法能够有效地提高生成摘要的准确率,可应用于自动文本摘要提取任务。
  • 中文摘要数据集本来就少的可怜,除了LCSTS,NLPCC 2017 。LCSTS是短文本的数据集,比较权威的数据集,需要的小伙伴可以下载。
  • 中文摘要数据集本来就少的可怜,LCSTS是短文本的数据集,算是比较权威的了,可以满足你的工作学习需求,有需要的小伙伴可以下载。
  • 1 github 链接 ... https://github.com/CLUEbenchmark/CLUEDatasetSearch NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 ...
  • 基于TextRank的文本摘要前言备注Talk is cheap, show me the code. 前言 在GitHub上写笔记要经常查看很麻烦,在此记录一些整合的各种代码。能附上原文链接的都附上了,多数非原创,不要杠。 备注 TextRank抽取式...
  • Datasets(数据集) ...本文整理了一些文本摘要数据集,具体如下: 1、中文数据集:新浪微博摘要数据集(679898 条数据) 2、英文数据集:Gigaword 、LCSTS 、Newsroom 、Xsum、CNN dailymail。 ...
  • 在本文中,我们构建了印尼语自动摘要数据集,并对印尼语自动摘要进行了相关研究。 并且在本文中,我们提出了一种基于句子相似度聚类的高效的基于提取的自动文本摘要方法。 基于聚类的思想,本文考虑了句子的语义,...
  • 文本挖掘--数据文本处理-java

    千次阅读 2017-08-08 22:15:58
    我的项目是以复旦大学中文语料库和路透社英文语料库为数据集的,都是有类别的两层目录文本集。  不管你要做什么,你首先都要先读取文本,为了方便后面的操作,我写了几个工具类。 一、文本信
  • 目前深度学习已经广泛应用于英文文本摘要领域,但是在中文文本摘要领域极少使用该方法进行研究。另外,在文本摘要领域主要使用的模型是编码-解码模型,在编码时输入的是原始的文本信息,缺乏对文本高层次特征的利用...
  • 哈工大中文文本摘要数据集,LCSTS数据集,百度网盘下载地址,大家可以先下载附件中的txt文本,文本内容是我分享的LCSTS数据集的百度网盘下载地址。
  • 大型中文短文本对话数据集 写在前面:研究用,原创翻译,转载请标明出处;第一次译文,之后会跟进完善。 摘要   生成式对话的神经网络模型在建立短文本对话模型方向上取得了可喜的结果。然而,通过训练得到...
  • 4026.2019.06.015摘要: 提出了一种基于卷积循环神经网络的文本特征提取方法,同时对比使用统计学中的TF-IDF以及Word2vec方法的文本特征表示,将提取的特征分别放入SVM与随机森林分类器中对来源于中国知网的中文学术...
  • 我的项目是以复旦大学中文语料库和路透社英文语料库为数据集的,都是有类别的两层目录文本集。 不管你要做什么,你首先都要先读取文本,为了方便后面的操作,我写了几个工具类,这里先将文本读取Reade
  • 0.数据介绍 数据来源:从网站上爬取56821条数据...创建数据集和数据字典 创建数据读取器train_reader 和test_reader 2、配置网络  定义网络  定义损失函数  定义优化算法 3、训练网络 4、模型评估...
  • Internet上多媒体数据传输的Swift增长,需要从文本,图像,音频和视频的集合中进行多模式摘要(MMS)。 在这项工作中,我们提出了一种提取式多... 在该数据集上获得的实验结果表明,我们的方法优于其他竞争基准方法。
  • 数据来源:从网站上爬取56821条数据中文新闻摘要 数据内容:包含10种类别,国际、文化、娱乐、体育、财经、汽车、教育、科技、房产、证券 1、准备数据: 创建数据集和数据字典 创建数据读取器train_reader 和test...
  • 文本挖掘系统的实现之R语言分词

    千次阅读 2016-02-25 20:43:40
     对于文本挖掘大体可以分为两大类,一种是对单个文本的挖掘,主要是做文本结构析,文本摘要、信息表现,主要是挖掘单个文本中有价值的信息,在内容或结构上,主要应用在文本检索领域或搜索引擎;另一种是对文档的...
  • 我正在尝试开发一种文本摘要算法,用于评估结果,我应该使用DUC 2007等基准数据集,因此在DUC 2007中有很多文本和摘要,DUC 2007中文档的汇总如下所示:was|co-founder|predco-founder|southern poverty law center|...
  • 研究现有术语语义层次关联的主要方法,针对如何自动获取并且准确描述术语语义层次关系这一关键问题,提出构建的术语语义...最后选取了部分中文专利文本摘要数据集对流程的效果进行测试与评估,取得了不错的实验结果。
  • 给定微博话题数据集,从中筛选出前N(N> 0)条微博,作为话题摘要。 问题实质:短文本多文档自动文摘。 流程:数据-算法-评估-展现 数据获取与预先:如何通过编写爬虫获取网站数据? 摘要算法:如何使用Python及其...
  • 针对面向微博的中文新闻摘要的主要挑战,提出了一种将矩阵分解与子模最大化相结合的新闻自动摘要方法...在NLPCC2015数据集上的实验结果表明,该方法能有效提高面向微博的新闻自动摘要质量,ROUGE得分超过其他基线系统。

空空如也

空空如也

1 2 3 4 5
收藏数 96
精华内容 38
关键字:

中文文本摘要数据集