精华内容
下载资源
问答
  • 想要学习自动摘要数据集,可以从这进行下载。里面有生成好的自动摘要
  • 自动文本摘要LCSTS数据集 原始数据,链接:https://pan.baidu.com/s/1Eo7E0Pr0YcTBSt_IWt-m9Q 提取码:lxh4 第一部分Part Ⅰ数据,链接:https://pan.baidu.com/s/1mrb6RktzgoFWsVFbEs9OVQ 提取码:8xsn

    自动文本摘要LCSTS数据集

    原始数据,链接:https://pan.baidu.com/s/1Eo7E0Pr0YcTBSt_IWt-m9Q 提取码:lxh4
    第一部分Part Ⅰ数据,链接:https://pan.baidu.com/s/1mrb6RktzgoFWsVFbEs9OVQ 提取码:8xsn

    你也可以调用百度云的API去免费访问数据,https://cloud.baidu.com/product/nlp在这里插入图片描述

    展开全文
  • 数据集为教育培训行业抽象式自动摘要中文语料库。 chinese_abstractive_corpus_datasets.txt
  • 文本摘要常用数据集和方法研究综述 [1]侯圣峦,张书涵,费超群.文本摘要常用数据集和方法研究综述[J].中文信息学报,2019,33(05):1-16. 为了解决抽取式摘要方法缺少训练数据的问题,已有方法通常将用于生成式文本...

    [1]侯圣峦,张书涵,费超群.文本摘要常用数据集和方法研究综述[J].中文信息学报,2019,33(05):1-16.


    在这里插入图片描述

    为了解决抽取式摘要方法缺少训练数据的问题,已有方法通常将用于生成式文本摘要的数据集进行简单转换,例如, Cheng等【参考文献6】将CNN/ Daily Mail数据集中的每篇文本中句子与生成式摘要句计算匹配度,匹配度较高的句子作为抽取式摘要句,构成抽取式摘要方法的数据集。

    数据集Gigaword、 CNN/ Daily mail、 LASTS等都是十万级规模,可满足深度神经网络训练的需求。

    LCSTS

    LCSTS(large scale Chinese short text summa rization dataset)链接:http://icrc.hitsz,educn/article/Show/139.html. 是【23—Hu B Chen Q, Zhu F. LCSTS:A large scale Chinese short text summarization dataset】从新浪微博获取的短文本新闻摘要数据库,规模超过200万。

    在这里插入图片描述

    随着微博等社交媒体软件的普及,部分工作提出了面向社交媒体文本的文本摘要算法。由于中文社交媒体文本大都是短文本,具有篇幅较短、存在较多噪声等特点,传统的文本摘要方法在这类文本上往往效果较差。

    数据集定义

    在这里插入图片描述

    【24—Ma s, Sun X, XuJ, et al. Improving semantic relevance for Sequence-to- Sequence learning of Chinese social media text summarization】提出面向中文社交媒体短文本摘要的方法,基于深度学习的抽取式摘要,采用循环神经网络的“编码器–解码器”和“注意力”机制。较Hu等【23】的方法有所提升。

    NLPCC

    自然语言处理与中文计算会议( CCF Conference on Natural Language Processing &.Chinese Computing, NLPCO)是由中国计算机学会(CCF)举办的自然语言文本测评会议,包括文本摘要、情感分析、自动问答等任务。 http://tcci.ccf.org.cn/conference

    数据集定义

    特点:新闻文本不分领域、不分类型,篇幅较长。

    在这里插入图片描述

    在此数据集上,【25—莫鹏,胡珀,黄湘冀,等。基于超图的文本摘要与关键词协同抽取研究】提出基于超图的文本摘要和关键词生成方法

    将句子作为超边(hyperedge),将词作为节点(vertice)构建超图(hypergraph)。

    利用超图中句子与词之间的高阶信息来生成摘要和关键词。

    【文献26—Xu H, Cao Y, Shang Y, et al. Adversarial reinforcement learning for Chinese text summarization】针对已有的利用极大似然估计来优化的生成式摘要模型存在的准确率低的问题,提出了
    一种基于对抗增强学习的中文文本摘要方法,提升了基于深度学习方法在中文文本摘要上的准确率。
    方法在LCSTS和NLPCC2015数据集上进行了测评。

    自建数据集及其对应方法

    基于统计的方法

    常用的特征:句子所在位置、TF-IDF、n-gram等

    文献27【An effective sentence-extraction technique using contextual information and statistical approaches for text summarization. Pattern Recognition letters,2008.】,提出一种基于上下文特征和统计特征的摘要句提取方法

    将每两个相邻的句子合并为一个二元语言模型伪句子( Bi-Gram pseudo sentence,BGPS),BGPS包含比单个句子更多的特征根据统计方法对BGPS进行重要程度打分,选取分值较高的BGPS对应的句子作为摘要句。

    基于统计的文本摘要方法较为直观,抽取的特征相对简单,因此方法较易实现,但准确率较低。这类方法同样适用于中文文本摘要任务。

    基于图模型的方法

    文献【Comments oriented document summarization:understanding documents with readers’ feedback】中,对于web文本,不仅考虑文本内容本身,还将读者的评论信息加入文本摘要抽取

    将评论作为节点,评论之间的关系作为边,利用图模型对评论的重要程度进行打分。两种方法:

    • 通过评论的关键词来对候选摘要句进行打分;
    • 将原文本和评论组成一个“伪文本”,对其进行打分。

    文献29【林莉媛,王中卿,李寿山,等.基于PageRank的中文多文档文本情感摘要[J]. 中文信息学报,2014】,提出基于情感信息的PageRank多文本情感摘要方法,考虑了情感和主题两方面信息,数据集来自亚马逊中文网https://www.amazon.cn,收集15个产品的评论语料,每个产品包括200条评论,自建了包括15个主题的多文本摘要数据集。选取48个句子作为该主题的摘要句。

    基于词法链的方法

    文献31【Chen Y wang x, Guan Y. Automatic text summarization based on lexical chains】,首次将词法链应用到中文,提出了基于词法链的中文文本摘要。

    首先利用HowNet作为词法链构建知识库,然后识别强词法链,最后基于启发式规则选取摘要句。

    文献32【Yu L, Ma J, Ren F,et al. Automatic text summarization based on lexical chains and structural features 】,提出了基于词法链和结构特征的中文文本摘要方法。

    同样利用HowNet构建词法链,结构特征包括句子的位置(如是否为首句)等。利用词法链特征和结构特征进行加权对句子的重要程度进行打分,选取摘要句。

    文献33【Wu X,Xic F, Wu U, et al. PNFS; personalized web news filtering and summarization】,提出了个性化Web新闻的过滤和摘要系统PNFS

    总结并提取能够刻画新闻主题的关键词。

    关键词的提取利用基于词法链的方法[34],利用词之间的语义相关性进行语义消歧并构建词法链。

    传统词法链主要由名词和名词短语构成,缺少动词等所包含的语义信息。文献35,提出了全息词法链,包括名词、动词、形容词三类词法链,包括了文章的主要语义信息。根据句子中的全息词法链中的词特征,利用逻辑回归、支持向量机等机器学习方法学习摘要句。

    基于篇章结构的方法

    文献36【王继成,武港山,周源远,等.一种篇章结构指导的中文Web文档自动摘要方法】,提出中文Web文本自动摘要方法,首先分析段落之间的语义关联,将语义相近的段落合并,划分出主题层次,进而得到篇章结构。在篇章结构的指导下,使用统计的方法,结合启发式规则进行关键词和关键句子的提取,最终生成中文Web文本的摘要。

    基于机器学习的方法

    文献37【Hu P, He T, Ji D. Chinese text summarization based on thematic area detection】,提出了基于主题的中文单文本摘要方法

    首先通过段落聚类发现文本所反映的主题,然后从每一个主题中选取与主题语义相关性最大的一句话作为摘要句,最后根据选取的摘要句在原文本中的顺序组成最终的摘要。

    文献38【Baumel T, Cohen R, Elhadad M. Query-chain focused summarization】,提出了基于LDA主题模型的新型文本摘要任务:面向查询的更新摘要方法。

    1. 更新摘要是:已经提取出来摘要句,在避免冗余的前提下,将新内容加入摘要中。
    2. 面向查询的摘要:提取出与查询相关的重要句子作为摘要句。

    综合以上两点:用户的第n条查询语句得到的结果要在前n-1条查询语句结果的摘要上进行更新摘要。

    文献40【庞超,尹传环.基于分类的中文文本摘要方法.计算机科学,2018】,结合循环神经网络的“编码器–解码器”结构和基于分类的结构,提出了一种理解式文本摘要方法。同时在此结构中使用了“注意力”机制,提升了模型对于文本内容的表达能力。

    文献40【庞超,尹传环.基于分类的中文文本摘要方法.计算机科学,2018】,结合循环神经网络的“编码器–解码器”结构和基于分类的结构,提出了一种理解式文本摘要方法。同时在此结构中使用了“注意力”机制,提升了模型对于文本内容的表达能力。

    展开全文
  • 自动生成开源数据集概述 ( )的项目4月16日至4月17日,星期六 关于 查找和查看开放的数据集可能很耗时。 数据集可能需要很长时间才能下载,并且在浏览了数据集后,您意识到数据集并不是您所需要的形式。 这个想法...
  • ApolloScape自动驾驶数据集

    万次阅读 2018-08-28 17:26:14
    此次ECCV 2018以解决潜在的计算机视觉为挑战,赛事主要包括基于视觉的细粒度车道标记分割、实时自定位及3D汽车实例了解等3大内容,所有参赛者都将基于ApolloScape提供的数据集进行挑战 目前的自动驾驶开发测试中,....

    ECCV 2018和ApolloScape

    目前,自动驾驶公司主要依赖于激光雷达来检测和识别物体,但相比激光雷达,基于视觉信息(如图像或视频)的3D感知或将大大降低成本。
    此次ECCV 2018以解决潜在的计算机视觉为挑战,赛事主要包括基于视觉的细粒度车道标记分割、实时自定位及3D汽车实例了解等3大内容,所有参赛者都将基于ApolloScape提供的数据集进行挑战
    目前的自动驾驶开发测试中,鲜少有团队有能力开发并维持一个适用的自动驾驶平台,长期的、系统的收集和标注新数据,因此行业亟需一个数据量充沛、标注详实的自动驾驶专用数据平台。
    2018年3月,百度大规模自动驾驶数据集ApolloScape应需开放,致力于为全世界自动驾驶技术研究者提供更为实用的数据资源及评估标准。ApolloScape是百度在2017年创立的Apollo开放平台的一部分,目前采集图像来自于中国的不同城市,比如北京、上海和深圳等。

    自动驾驶公开数据集比较

    为了刻画高细粒度的静态3D世界,ApolloScape使用移动激光雷达扫描仪器从Reigl收集点云。这种方法产生的三维点云要比Velodyne产生点云更精确、更稠密。在采集车车顶上安装有标定好的高分辨率相机以每一米一帧的速率同步记录采集车周围的场景。而且,整个系统配有高精度GPS和IMU,相机的实时位姿都可以被同步记录。据介绍,ApolloScape是目前行业内环境最复杂、标注最精准、数据量最大的三维自动驾驶公开数据集。ApolloScape的标注精细度上超过同类型的KITTI,Cityscapes数据集,也超过UC Berkley最新发布的BDD100K。
    这里写图片描述
    目前,ApolloScape已经开放了14.7万帧的像素级语义标注图像,包括感知分类和路网数据等数十万帧逐像素语义分割标注的高分辨率图像数据,以及与其对应的逐像素语义标注,覆盖了来自三个城市的三个站点周围10KM的地域。
    而且,每个区域都在不同的天气和光照条件下进行了重复扫描。未来,ApolloSacpe将会发展成为一个不断更新进化的数据集,涵盖更复杂的环境、天气和交通状况,添加更多的传感器来扩充数据的多样性,致力于打造真实世界还原度最高、场景最丰富的仿真平台。未来,来自新的城市的数据标注也会陆续的加入其中。ApolloSacpe计划产出至少20万张图片用于举行不同的挑战赛,其中将会覆盖来自三个城市的5个站点的20KM的道路。

    ApolloScape自动驾驶数据集

    Apollo开放资源数据集分为以下三大部分:

    • 仿真数据集,包括自动驾驶虚拟场景和实际道路真实场景;
      这里写图片描述
    • 演示数据集,包括车载系统演示数据,标定演示数据,端到端演示数据,自定位模块演示数据;
      这里写图片描述
    • 标注数据集,包括6部分数据集:激光点云障碍物检测分类,红绿灯检测,Road Hackers,基于图像的障碍物检测分类,障碍物轨迹预测,场景解析;
      这里写图片描述

    除开放数据外,还配套开放云端服务,包括数据标注平台,训练学习平台以及仿真平台和标定平台,为Apollo开发者提供一整套数据计算能力的解决方案,加速迭代创新。
    平台使用教程:https://cloud.tencent.com/developer/article/1063258

    Scene Parsing数据集

    Scene Parsing数据集是ApolloScape的一部分,它为高级自动驾驶研究提供了一套工具和数据集。场景解析旨在为图像中的每个像素或点云中的每个点分配类(语义)标签。它是2D / 3D场景最全面的分析之一。鉴于自动驾驶的兴起,环境感知有望成为关键的技术部分。百度公司提供的ApolloScape数据集将包括具有高分辨率图像和每像素注释的RGB视频,具有语义分割的测量级密集3D点,立体视频和全景图像。

    数据集定义

    这里写图片描述

    类别定义

    这里写图片描述

    数据摘要

    我们的数据集中的图像帧由我们的采集系统每分钟收集一次,分辨率为3384 x 2710.预计发布的数据集将包括具有相应像素级注释和姿势信息的200K图像帧。实例级注释可用于数据集的子集。还将提供静态背景的深度图。
    数据集分为三个子集,分别用于训练,验证和测试。未提供用于测试图像的语义注释。用于测试图像的地面实况注释中的所有像素都标记为255.将很快提供包含训练,验证和测试子集的图像列表的文件。

    • 训练RGB图像总数:17,062
    • 验证深度图像总数:17,062
    • 测试RGB图像的总数:1,973
    • 测试深度图像总数:1,973
    • 类别总数:27
    • 用于评测的类别总数:21
    • 图像分辨率:3384 x 2710

    数据规范

    在第一版数据集中,我们提供了 17062 张图像和相对应的语义标注与深度信息,用于设计算法和训练模型。train.txt 包括了这些图像的相对路径。每个图片的名字由时间戳和相机编号组成,如 170908_06190754_Camera_5。训练集的目录结
    构如下:

    train_image/ // 训练集图像根目录
    |-- image
    | |-- Record014
    | | |-- Camera 5
    | | | |-- 170908_061910754_Camera_5.jpg
    | | | |-- ...
    | | | |--170908_061912275_Camera_5.jpg
    | | |-- Camera 6
    | | | |-- 170908_061910754_Camera_6.jpg
    | | | |-- ...
    | |-- :
    | |-- Record031
    | | |-- Camera 5
    | | | |-- ...
    train_depth/ // 训练集深度图像根目录
    |-- depth
    | |-- Record014
    | | |-- Camera 5
    | | | |-- 170908_061910754_Camera_5.png
    | | | |-- ...
    | | | |--170908_061912275_Camera_5.png
    | | |-- Camera 6
    | | | |-- 170908_061910754_Camera_6.png
    | | | |-- ...
    | |-- :
    | |-- Record031
    | | |-- Camera 5
    | | | |-- ...
    train_label/ //训练集标注根目录
    |-- image
    | |-- Record014
    | | |-- Camera 5
    | | | |-- 170908_061910754_Camera_5.png
    | | | |-- ...
    | | | |--170908_061912275_Camera_5.png
    | | |-- Camera 6
    | | | |-- 170908_061910754_Camera_5.png
    | | | |-- ...
    | |-- :
    | |-- Record031
    | | |-- Camera 5
    | | | |-- ...

    附:
    数据集使用手册:http://data.apollo.auto/static/pdf/apollo_scape_label.pdf
    平台使用教程:https://cloud.tencent.com/developer/article/1063258
    样例数据下载

    展开全文
  • 在本文中,我们构建了印尼语自动摘要数据集,并对印尼语自动摘要进行了相关研究。 并且在本文中,我们提出了一种基于句子相似度聚类的高效的基于提取的自动文本摘要方法。 基于聚类的思想,本文考虑了句子的语义,...
  • CNNDaily数据集.rar

    2021-04-16 14:53:00
    文本摘要数据集 CNN与Daily News 未经过处理的原始数据集。
  • 使用机器学习转换器和将抽象摘要数据集转换为提取任务的工具来执行神经摘要(抽取式和抽象式)的模型。 TransformerSum是一个旨在简化训练,评估和使用机器学习变压器模型的库,这些模型可以执行自动汇总。 它与...
  • 背景:由于CVAE在summary_yxu的代码和讯飞的自己提取出来的对话数据集上,初见...一、文本摘要与对话摘要数据集对比 文本摘要 全文没有对话信息 DUC/TAC 英文|数据集较小|适用于传统摘要方法的评估 Gigaword...

    背景:由于CVAE在summary_yxu的代码和讯飞的自己提取出来的对话数据集上,初见成效,于是这次用在一些官方的数据集上和一些对话摘要的baseline上试一下,万一效果也好呢?

    NOTE:再次提醒自己这次一定要用心,用心!

    一、文本摘要与对话摘要数据集对比

    • 文本摘要

    • 全文没有对话信息
    • DUC/TAC       英文|数据集较小|适用于传统摘要方法的评估
    • Gigaword       英文|启发式规则构成|适用于深度神经网络方法
    • CNN/DailyMail           多句摘要数据|常用于生成式摘要方法
    • NYTAC           长度较短|可用于文本摘要、信息检索、信息抽取
    • ASNAPR         商品评论数据|可用于评论和情感的摘要
    • LCSTS            中文|新浪微博数据|短文本|深度网络摘要方法
    • NLPCC           文本摘要、情感分类、自动问答等任务
    • 对话摘要(数据集相对较少)

    • 两个或两个以上的对话参与者
    • AMI         英|规模小|会议多模态数据|可用于抽取式与生成式摘要
    • SAMSum英|规模大|闲聊数据|人工标注|适用于生成式摘要
    • ICSI         英|规模较小|会议语料库

    二、本次要用的对话摘要数据集的具体格式

    本次要用:AMI Meeting Dataset (Carletta et al., 2005)

    Jean Carletta, Simone Ashby, Sebastien Bourban, Mike Flynn, Mael Guillemot, Thomas Hain, Jaroslav Kadlec, Vasilis Karaiskos, Wessel Kraaij, Melissa Kronenthal, et al. 2005. The ami meeting corpus: A pre-announcement. In International workshop on machine learning for multimodal interaction, pages 28–39. Springer.

    AMI:英文 | 会议 | 多模态数据集,包含100小时的会议录音。大约三分之二的数据是通过参与者在设计团队中扮演不同角色的场景引出的,设计项目从开始到结束。其余部分包括各种领域的自然会议。在会议期间,参与者还可以使用不同步的笔来记录所写的内容。会议以英语记录,使用三个不同声学特性的房间,主要包括非母语人士。

    官方网址:http://groups.inf.ed.ac.uk/ami/corpus/

    中文参照:http://sykv.cn/m/view.php?aid=19912

    来源:虽然AMI会议语料库是为了开发会议浏览技术的联盟的使用而创建的,但它被设计用于广泛的研究领域。此网站上的下载内容包括适合大多数用途的视频, 所有信号和转录以及一些注释都已根据 知识共享署名4.0国际许可(CC BY 4.0)公开发布。

    描述数据的相关论文: 

    • Jean Carletta(2007年)。释放杀手语料库:创建多种一切AMI会议语料库的经验。
    • Steve Renals,Thomas Hain和HervéBourlard(2007)。会议的认可和解释:AMI和AMIDA项目。

    数据集包含:视频、注释(Annotations)、注释手写体,

    大小:(这里我要下载的是下图22MB的这一份)train97 val20 test20【数据集大小】

    We preprocess and divide 457 the dataset into training (97 meetings), development (20 meetings) and test (20 meetings) sets as 459 done by (Shang et al., 2018).

    格式:NXT格式,需要 NXT version 1.4.4,原始数据格式如下图,记录每一时刻的单词是什么

    使用:要想使用的话,需要处理成自己想要的格式。(这里C哥已经有处理好的一份数据,我会直接用这一份)

    三、目前已有的对话摘要论文及效果,哪些能作为baseline

    C哥论文里的baseline:

    • TextRank (Mihalcea and Tarau, 2004) is a graph-based extractive method that selects im- 491portant sentences from the input document. 
    • C&L (Cheng and Lapata, 2016) is an extractive method based on sequence-to-sequence 494framework. Its decoder receives sentence embeddings and outputs sentence labels.
    • SummaRunner (Nallapati et al., 2017) is an extractive method based on hierarchical RNN which iteratively constructs summary representation to predict sentence labels.
    • CoreRank (Shang et al., 2018) is a unsupervised abstractive method which generates summaries by combining several approachs.
    • Pointer-Generator (See et al., 2017) is an abstractive method equips with copy mechanism, its decoder can either generate from the vocabulary or copy from the input.
    • HRED (Serban et al., 2016) is a hierarchical sequence-to-sequence model which is composed of a word-level LSTM and a sentence-level LSTM.
    • Sentence-Gated (Goo and Chen, 2018) is an abstractive method that incorporates dialogue acts by the sentence-gated mechanism.
    • TopicSeg (Li et al., 2019a) is an abstractive method using a hierarchical attention mechanism at three levels (topic, utterance, word).

    及效果

    四、会议摘要的相关工作

    1. 7 Related Work

    2. Meeting Summarization

    3. Graph-to-Sequence Generation

    五、开始跑baseline

    本次我要使用的baseline:

    • Abigail See, Peter J. Liu, and Christopher D. Manning. 2017. Get to the point: Summarization with pointer-generator networks.
    • Ramesh Nallapati, Feifei Zhai, and Bowen Zhou. 2017. Summarunner: A recurrent neural network based sequence model for extractive summarization of documents.
    • Chih-Wen Goo and Yun-Nung Chen. 2018. Abstractive dialogue summarization with sentence-gated modeling optimized by dialogue acts.

    5.1、 Pointer-Generator

    论文:https://arxiv.org/abs/1704.04368

    代码:https://github.com/abisee/pointer-generator,tf版本

    此处使用:https://github.com/OpenNMT/OpenNMT-pypytorch版本

    source activate onmt_diasum

    pip install OpenNMT-py

    基础模型结构记录
    NMTModel(
      (encoder): RNNEncoder(
        (embeddings): Embeddings(
          (make_embedding): Sequential(
            (emb_luts): Elementwise(
              (0): Embedding(5809, 300, padding_idx=1)
            )
          )
        )
        (rnn): LSTM(300, 200, num_layers=2, dropout=0.3)
      )
      (decoder): InputFeedRNNDecoder(
        (embeddings): Embeddings(
          (make_embedding): Sequential(
            (emb_luts): Elementwise(
              (0): Embedding(5809, 300, padding_idx=1)
            )
          )
        )
        (dropout): Dropout(p=0.3, inplace=False)
        (rnn): StackedLSTM(
          (dropout): Dropout(p=0.3, inplace=False)
          (layers): ModuleList(
            (0): LSTMCell(500, 200)
            (1): LSTMCell(200, 200)
          )
        )
        (attn): GlobalAttention(
          (linear_in): Linear(in_features=200, out_features=200, bias=False)
          (linear_out): Linear(in_features=400, out_features=200, bias=False)
        )
      )
      (generator): Sequential(
        (0): Linear(in_features=200, out_features=5809, bias=True)
        (1): Cast()
        (2): LogSoftmax()
      )
    )

    生成式-已复现

    5.2、SummaRunner

    论文:https://arxiv.org/abs/1611.04230

    代码:无官网代码

    此处使用:https://github.com/kedz/nnsumpytorch版本

    conda(source) activate nnsum

    抽取式-

    5.3、Sentence-Gated

    论文:https://arxiv.org/abs/1809.05715

    代码:https://github.com/MiuLab/DialSum,tf版本

    此处使用:一份C哥自己复现的代码,根据open-nmt改的,pytorch版本,所以直接使用5.1的环境

    生成式-已复现

     

    展开全文
  • nlpcc_data.json

    2021-08-16 20:47:31
    自动摘要数据集
  • 几个CNN/DM数据集的地址: 【万x之源】最初版本的CNN/DM:https://cs.nyu.edu/~kcho/DMQA/ 下图大兄弟用来创造非匿名数据集的代码:https://github.com/abisee/cnn-dailymail(为啥不直接给出处理完的数据集呢?...
  • 数据集:KITTI数据集分析

    千次阅读 2017-11-03 10:34:17
    The KITTI Vision Benchmark Suite和Vision meets Robotics: The KITTI Dataset两篇论文的内容,主要介绍KITTI数据集概述,数据采集平台,数据集详细描述,评价准则以及具体使用案例。本文对KITTI数据集提供一个...
  • Python自动文本摘要

    千次阅读 2018-10-14 23:39:38
    那么往后的两年多的时间里,小亮主要做文本自动摘要方向的研究。今天这篇博客是Python自动文本摘要,主要与大家分享一下Python自动文本摘要方向的技术,更好地让自己以及大家入门自动文本摘要方向,早日找...
  • 文本自动摘要

    万次阅读 多人点赞 2017-05-11 09:42:55
    TAC(Text Analysis Conference)和TREC(Text REtrieval Conference)两个会议提供了相关的评测数据集自动文摘领域的paper都是以这些数据集为baseline,与其他paper的算法进行对比。会议的数据集毕竟有限,新的...
  • 针对中文自动摘要准确率不高的问题,在含有注意力机制的序列到序列(sequence-to-sequence,seq2seq)基础模型的解码器中融合了复制机制和input-feeding方法,提出了准确率更高的中文自动摘要模型。首先,该模型使用...
  • 文本自动摘要简介

    千次阅读 2017-02-17 02:25:00
    文本摘要技术是利用计算机自动实现文本分析、内容归纳和摘要自动生成的技术。
  • 深度学习常用数据集介绍与下载(附网盘链接)

    万次阅读 多人点赞 2020-09-29 13:49:10
    这篇博文总结了博主收集的深度学习常用的数据集,包含常用的分类、目标检测及人脸识别任务,对每个数据集给出了简要介绍、官网下载网站以及公众号获取的关键字。因为有的数据集较大,官网的下载速度可能比较慢,为了...
  • 完整版LCSTS数据集,由于文件大小限制,里面是一个txt,包含了下载链接
  • KITTI数据集

    万次阅读 2018-04-01 17:15:31
    KITTI数据集感谢~收藏用!原文出自:https://blog.csdn.net/solomon1558/article/details/70173223摘要:本文融合了Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite和Vision meets Robotics...
  • 教育培训行业抽象式自动摘要中文语料库 语料简介 自动文摘分为两种: 抽取式 抽象式 语料库收集了教育培训行业主流垂直媒体的历史文章(截止到2018年6月5日)大约24500条数据集。主要是为训练抽象式模型而整理,每条...
  • 自动摘要生成技术

    万次阅读 多人点赞 2019-03-07 15:51:41
    一、概念 二、Extractive抽取式... 3、TextRank算法生成摘要 1)文本相似度 - BM25算法 4、TextRank算法优势 5、TextRank算法存在的问题及解决策略 三、Abstractive抽取式算法 1、seq2seq + attent...
  • 基于Pytorch的中文文本摘要生成 开这个仓库的主要目的是记录一下自己实验过程和数据。 参考文本摘要领域大佬写的两篇论文: and ,然后参考另一位大佬修改的代码. 另外,在这里还是要感谢一下。这里的所有内容基本上...
  • Image数据集

    千次阅读 2019-11-23 15:36:18
    原文链接: ...一、行动数据库 20bn-Something-Something - 密集标记的视频剪辑,显示人类使用日常物品执行预定义的基本动作(Twenty Billion Neurons GmbH) 3D在线行动数据集 - 有七个行动类别(微软和南...
  • 摘要从自然图像生成自动描述是一个具有挑战性的问题,近来受到计算机视觉和自然语言处理... 此外,我们概述了评估机器生成图像描述质量的基准图像数据集和评估措施。 最后,我们推断自动图像描述生成领域的未来方向。
  • 自动生成文本摘要

    万次阅读 2018-10-06 14:33:38
    什么是文本摘要生成 如何从网页上提取数据 如何清洗数据 如何构建直方图 如何计算句子分数 如何提取分数最高的句子/摘要   在继续往下阅读之前,我假设你已经了解下面几...
  • 给定微博话题数据集,从中筛选出前N(N> 0)条微博,作为话题摘要。 问题实质:短文本多文档自动文摘。 流程:数据-算法-评估-展现 数据获取与预先:如何通过编写爬虫获取网站数据? 摘要算法:如何使用Python及其...
  • 本文所收集的数据集来自互联网,并将学习数据挖掘、机器学习、深度学习过程遇到的一些数据集加入其中,可能有些数据集随着时间的流逝链接会失效。 1,气候监测数据集http://cdiac.ornl.gov/ftp/ndp026b  2...
  • 研究人员提出的新技术可以用「种子」神经网络为基础,对特定数据集自动生成最优化的神经网络,这些生成的模型在性能上超过此前业内最佳水平,同时资源消耗与模型尺寸相比同类模型小了一个数量级。研究人员称,NeST ...
  • 数据集总结

    千次阅读 2019-08-29 09:34:41
    一般RGBD和深度数据集 一般视频 手,掌握,手动和手势数据库 图像,视频和形状数据库检索 对象数据库 人(静),人体姿势 人员检测和跟踪数据库(另见监控) 遥感 场景或地点分割或分...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 45,309
精华内容 18,123
关键字:

自动摘要数据集