精华内容
下载资源
问答
  • 想要学习自动摘要数据集,可以从这进行下载。里面有生成好的自动摘要
  • 自动文本摘要LCSTS数据集 原始数据,链接:https://pan.baidu.com/s/1Eo7E0Pr0YcTBSt_IWt-m9Q 提取码:lxh4 第一部分Part Ⅰ数据,链接:https://pan.baidu.com/s/1mrb6RktzgoFWsVFbEs9OVQ 提取码:8xsn

    自动文本摘要LCSTS数据集

    原始数据,链接:https://pan.baidu.com/s/1Eo7E0Pr0YcTBSt_IWt-m9Q 提取码:lxh4
    第一部分Part Ⅰ数据,链接:https://pan.baidu.com/s/1mrb6RktzgoFWsVFbEs9OVQ 提取码:8xsn

    你也可以调用百度云的API去免费访问数据,https://cloud.baidu.com/product/nlp在这里插入图片描述

    展开全文
  • 关于textsum 的两篇文章是:曾伊言:安装 TensorFlow 之 textsum 文章自动摘要​zhuanlan.zhihu.com 关于如何安装运行 textsum 可以看上面这篇文章↑准备 textsum(文章自动摘要) 的数据集​zhuanlan.zhihu.com 关于...

    前言

    这篇文章写于2017年春,根据其他人的反映:本文用到的TensorFlow 1.x github的 textsum代码已经处于没有维护的状态,在FAQ中反映的错误也没有得到修复,因此我目前不会继续维护本文的代码部分。目前,textsum算法已经在各方面都劣于基于BERT的Transformer结构的算法(2018),无论你是学习、对比,我都不建议使用textsum。

    关于textsum 的两篇文章是:

    曾伊言:安装 TensorFlow 之 textsum 文章自动摘要zhuanlan.zhihu.com
    d96b10f7de6b03906780b8c0aa15f8ae.png

    关于如何安装运行 textsum 可以看上面这篇文章↑

    准备 textsum(文章自动摘要) 的数据集zhuanlan.zhihu.com

    关于textsum 中文数据集的制作,就是本文了↑


    textsum 数据集的格式

    自行创建工作目录后(我创建的是CWD),需要准备的数据放在CWD/data 里面

    $ cd CWD/data
    $ ls 
    vocab  # 即 vocabulary,是词汇表
    training-0  # 训练用数据集,是二进制的,需要转换才能打开
    # ↑上面这两个文件可以在 textsum/data 里面找到作者提供的示例 [vocab] 和 [data](即training)
    
    他们分别对应 textsum 的训练命令:
    # Run the training.
    $ bazel-bin/textsum/seq2seq_attention 
        --mode=train 
        --article_key=article   # 对应training-0(更名前是data文件)中的 标签"article"
        --abstract_key=abstract # 对应training-0(更名前是data文件)中的 标签"abstract"
        --data_path=data/training-*   # 这个文件是之前准备的
        --vocab_path=data/vocab 
        --log_root=textsum/log_root   # 训练产生的参数会保留在这里
        --train_dir=textsum/log_root/train

    1.vocab 词汇表

    由作者提供的vocab 在 CWD/textsum/data,内容如下:

    单词 单词频数
    the 135597564
    , 121400181  # 竟然没有过滤掉标点
    . 98868076
    to 58429764
    ...
    <UNK> 12263923  # 形如 <XXX> 的是标签
    at 12221539
    as 11657129
    by 11105584
    </d> 11090708  # 看,这个也是标签
    <d> 11090708
    ...

    这是我获取 vocab 词汇表的函数

    def get_chinese_vovab(data_list, cwd):
        vovab = dict()
    
        for data in data_list:
            data = cwd + "clean." + data
            print(data)
    
            with open(data, 'r') as f:
                line = ' '
                while line:
                    line = f.readline()
    
                    for word in line.split(' '):
                        try:
                            vovab[word] += 1
                        except KeyError:
                            vovab[word] = 1
    
        vovab = np.array(list(vovab.items()))
        vovab_keys = vovab[:, 1].astype(np.int)
    
        vovab = vovab[np.argsort(vovab_keys)]
    
        with open("vovab", "w") as f:
            for line in vovab[::-1]:
                if int(line[1]) > 16 and re.findall(r'[u4e00-u9fa5]', line[0]):
                    f.write(' '.join(line) + 'n')
    
    # 注意 if int(line[1]) > 16 过滤了频数小于等于16 的词汇
    # r'[u4e00-u9fa5]' 是中文字符集

    获取的vocab_chinese 如下(vocab不需要像data一样转成二进制):

    的 1494157
    在 398885
    了 324064
    是 237362
    和 211547  # 不全是单字,只是某些单字频数高而已
    
    观察期 17
    十几倍 17
    萨斯 17
    远华 17
    流行歌 17
    <PAD> 5  # 这个是我自己后来解决报错的时候加上去的,因为我赶时间,所以没有把特殊标签做出来
    <UNK> 5
    <d> 5
    <p> 5
    <s> 5
    </d> 5
    </p> 5
    </s> 5

    错误处理(类似错误 vocab.CheckVocab):

    Bad line: 
    
    Traceback (most recent call last):
      File "/home/user/Videos/CWD/bazel-bin/textsum/seq2seq_attention.runfiles/__main__/textsum/seq2seq_attention.py", line 213, in <module>
        tf.app.run()
      File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/platform/app.py", line 126, in run
        _sys.exit(main(argv))
      File "/home/user/Videos/CWD/bazel-bin/textsum/seq2seq_attention.runfiles/__main__/textsum/seq2seq_attention.py", line 165, in main
        assert vocab.CheckVocab(data.SENTENCE_START) > 0
    
    # 上面↑的错误是主程序调用 data.py 的时候引发的,检查vocab 的时候,发现里面没有标签<XXX>
    # 检查vocab 的时候,如果vocab 里面有重复的词汇,data.py 也会报错
    # 下面↓是data.py 里面关于<XXX>标签的 语句
    
    PARAGRAPH_START = '<p>'
    PARAGRAPH_END = '</p>'
    SENTENCE_START = '<s>'
    SENTENCE_END = '</s>'
    UNKNOWN_TOKEN = '<UNK>'
    PAD_TOKEN = '<PAD>'
    DOCUMENT_START = '<d>'
    DOCUMENT_END = '</d>'

    没报错的话,vocab就准备好了

    2.data 数据集 (traing-0, validation-0, test-0)

    由作者提供的data(文件) 在 CWD/textsum/data 中

    # 注意,下面这句话是一行的内容,换行是为了方便阅读
    publisher=AFP
    t
    abstract=<d> <p> <s> 这里是文章摘要 </s> </p> </d>
    t
    article=<d> <p> <s> 这里是正文,  </s>  <s> 句子用这个隔开→  </s> </p> </d>
    n

    因为中文和英文不同,所以我使用了Python 的一个优秀的中文分词库 [jieba分词]

    另外,附上搜狗数据集的下载页面,我使用的是 迷你版(样例数据, 101KB)

    他们提供的数据最大的是完整版 1GB

    # !/usr/bin python3
    # coding=utf-8
    import re
    import os
    import jieba
    import codecs
    import numpy as np
    
    def clean_and_segmentate_data(raw_data_list, cwd, decoding='utf-8'):
        for raw_data in raw_data_list:
            out_data = "clean." + raw_data
            raw_data = cwd + raw_data
            print("|||", out_data)
    
    # 注意!搜狗实验室下载的数据编码是 [GB18030],注意!
            # sogou_raw_data [news_tensite_xml*] use [gb18030]
            with codecs.open(raw_data, 'r', decoding) as raw:
                with open(out_data, 'w') as out:
                    abstract = ""
                    for i, line in enumerate(raw):
                        i %= 6
                        # filter punctuation(full-width characters, half-width characters)
                        # except full-width comma[,]
                        if 3 <= i <= 4:
                            line = re.sub(r'(.*)', '', line)
                            line = re.sub(r'(.*)', '', line)
                            line = re.sub("[s+.!/_,$%^*(+"']+|[+——!。?、~@#¥%……&*()""“”]+", "", line)
    # 上面过滤掉 (图 曾伊言 摄) 之类的语句
    # 上面过滤掉 全角半角标点符号,而 textsum 是用 <s></s> 作为句段的分隔标记的
    
                        if i == 3:
                            line = ' '.join(jieba.cut(line[14:-14], HMM=True))
                            abstract = "abstract=<d> <p> <s> %s</s> </p> </d>" % line
                        elif i == 4:
    
                            line = ' '.join(jieba.cut(line[9:-9], HMM=True))
                            article = "article=<d> <p> <s> %s </s> </p> </d>" % line.replace(',', '</s> <s> ')
    
    
    # 如果输入的文章过长,那么处理效率会比较低,甚至运行会报错
    # 考虑到人类的文章开头包含更多和摘要相关的内容,所以可以对文章进行截取 article[:256]
    # if len(article) > 64 过滤掉正文过短的文章
                            if len(article) > 64:  # prevent the article shorter than abstract
                                temp = "publisher=AFPt%st%sn" % (abstract, article[:256])
                                print(temp, end='')
                                out.write(temp)

    2e364b08c7b249c48e2a10fa2f0e8eb7.png
    使用Pycharm可以很方便地查看 编码类型

    得到数据后的操作,就和安装并运行 textsum(文章自动摘要)记录的步骤一样了

    记得用 CWD/textsum/data_convert_example.py 完成文本到二进制的转换

    python data_convert_example.py --command text_to_binary --in_file data/text_data --out_file 

    输出结果

    出来的结果看起来好像很好,其实只是因为我用的 训练数据集和测试数据集是同一个(这样不好 ヽ(#`Д´)ノ)

    # 输出的文件是 CWD/textsum/log_root/decode/ref123456*
    
    output=台 考试院长 独生女 婚后 1 年 坠楼 身亡
    output=全国 1 4 1 万 考生 参加国 考
    output=甘肃 宕昌县 发生 崩塌 灾害 导致 2 人 死亡
    output=留学 录取率 最高 的 1 5 所 美国 名校
    output=台媒 曝 岛内 大学教授 假发票 案 涉案 教授 或 达千人
    output=探访 非洲 地狱般 沙漠 : 火山 毒气 硫磺 湖泊 俱全
    output=中 石油 创 历史 新低 大盘 或 开启 短线 下跌 空间
    output=甘肃 金塔 矿难 被困 1 3 人 遇难
    output=江苏 丰县 回应 3 0 0 多亩 大棚 变 身 荒草 地
    output=全国 1 4 1 万 考生 参加国 考
    output=甘肃 宕昌县 发生 崩塌 灾害 导致 2 人 死亡
    output=广东 未来 三天 热带 伞防 阵雨
    output=情人节 当晚 北京 道路 拥堵
    展开全文
  • LCSTS、教育培训行业抽象式自动摘要中文语料库。有一个NLPCC的数据链接应该是失效了。请问还有其他什么中文的数据集吗?</p><p>该提问来源于开源项目:920232796/bert_seq2seq</p></div>
  • 点击上方“CVer”,选择加"星标"或“置顶”重磅干货,第一时间送达作者:Geekhttps://zhuanlan.zhihu.com/p/80086809本文已由作者授权,未经允许,不得二次转载《Class-balanced ...本篇文章为新自动驾驶数据集nuSc...

    点击上方“CVer”,选择加"星标"或“置顶”

    重磅干货,第一时间送达5c9626e5-bf1f-eb11-8da9-e4434bdf6706.jpeg

    作者 Geek

    https://zhuanlan.zhihu.com/p/80086809

    本文已由作者授权,未经允许,不得二次转载

    《Class-balanced Grouping and Sampling for Point Cloud 3D Object Detection》

    一、摘要:

    本篇文章为新自动驾驶数据集nuScenes第一名的算法。作者利用稀疏3D卷积来提取丰富的语义特征,然后将其送入类平衡多头网络以执行3D物体检测。以处理在自动驾驶场景中,类不平衡问题,作者设计了一个类平衡采样和增强策略以生成更平衡的数据,并提出了一个平衡的分组头来提高类别的性能类似的形状。基于比赛结果,我们的方法所有指标均大幅提升PointPillars 基线,在nuScenes数据集上实现最先进的(SOTA)检测性能。

    二、主要贡献:

    传统我们做kitti数据集只有三个类别(车、人、骑行者),而在Nuscenes中,类别上升到十类,且是以长尾形式存在(大量的车,小量的骑行者),这种数据型态更符合真实驾驶场景,也因此产生出类别不均衡的问题。

    本篇文章,作者试图解决Nuscenes中,类别不均衡的问题,具体解决方法有二大点:

    一、我们提出了类平衡采样策略来处理,nuScenes数据集中的极端不平衡问题

    二、我们设计了一个多组头网络,使类似形状或大小的类别可以从中受益彼此,以及不同形状或大小的类别停止互相干扰。

    三、主要方法:

    5d9626e5-bf1f-eb11-8da9-e4434bdf6706.jpeg

    Input阶段:

    两种策略解决样本不均衡问题:

    一、DS Sampling (作者提出)

    基本思想是把占比较小的类别进行复制,制作出较大数据集,然后针对每个类别用固定比例random sample这个大的数据集,组合出最终数据集,最终数据集的类别密度(类别数量/样本总数)是相近的,这方法可以减缓样本不平均问题。

    二、GT-AUG (SECOND引用)

    把某一样本中的物体点云数据,放到另一个样本中,过程中需要计算摆放位置是否合理。(详见原文)

    Network阶段 (3D特徵提取网络、RPN):

    使用稀疏3D卷积和skip connection来构建类似resnet的体系结构3D特征提取器网络。这边注意三维的卷积完,会从原本的N ×C ×H ×W变成N× l × C/m × H/n × W/n,五维的没办法用二维RPN进行操作,所以作者讲 l × C/m合并,变回四维,最后使用RPN是类似于VoxelNet的RPN结构(跟SSD类似),先用二维卷积降维三次,才分别反卷积回原大小,Concate在一起,有点类似特徵金字塔的味道,但最后输出是Concate所有从低到高层次的特徵。

    (这边说的RPN其实只是RPN head的部份,真正回归object在下一阶段,此阶段是把特徵从3维做成2维让下一阶段好操作)

    Head階段(Class-balanced Grouping) :

    为了解决类別不均衡问题,作者提出Class Grouping的概念,简而言之,将相似形状的类別分成一个群(Group),让该群中样本数量较多的类去提升样本数量较少的类的精度,而每个Group之间的总数量也接近,如此一来,网络在学习时,就能够减缓数量较多类别有主导整个网络的问题。

    二个重点:

    • 手动区分出每个Group中,该Group包含的类别有哪些,主要是透过样本总数与形状进行分组

    • Group之间样本总数量相近

    目标函数(Loss Function) :

    目标函数部分参照SECOND, 常见的问题如物体正反向问题(朝向相反),在这部份做了小改进,额外加入自己设计的朝向性分类(这部份没写公式,不确定是二分类正反,还是多一个朝向性分支)

    为了降低学习难度,使用了anchor机制,其他设置都SECOND类似,Focal loss做Classification, Smoothl1回归x, y, z, l, w, h, yaw, vx, vy,值得一提的是,每个分支用Uniform Scaling做学习权重。

    其他训练调参数细节详见论文。

    四、实验结果:

    619626e5-bf1f-eb11-8da9-e4434bdf6706.jpeg

    直上结果,目前NuScence第一名,mAP超Pointpillar12个点。

    659626e5-bf1f-eb11-8da9-e4434bdf6706.jpeg

    Ablation studies比较有意思,可以看每个trick具体涨点多少,本篇文章重点就DB-Sample,涨点还算是明显。

    五、结论:

    新的自动驾驶数据集nuScence与kitti其中一个不同点是类别变多,且其类别样本不平均,本篇文章主要提出新的类别不均衡解决方法,透过扩增数据集后,在随机采样以平衡较少的类别,并且将形状类似的分为一组,样本较少的类别能被形状类似的样本较多类别提升精度。

    心得(填坑):

    1. 本文提出的方法透过较多先验知识来完成,包括类别形状,类别数量等,未来是否能考虑用无监督的方法来学习分组,

    2. 进一步探讨解决样本不均衡问题中,DB-sample中相比OHEM、Focal loss等方法有什么优势与劣势,个人觉得DB-sample相比其他解决样本不均衡的方法相对比较手工且暴力。

    重磅!CVer-目标检测交流群成立啦

    扫码添加CVer助手,可申请加入CVer-目标检测交流群,同时还可以加入目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测和模型剪枝&压缩等群。一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡)

    699626e5-bf1f-eb11-8da9-e4434bdf6706.jpeg

    ▲长按加群

    6c9626e5-bf1f-eb11-8da9-e4434bdf6706.png

    ▲长按关注我们

    麻烦给我一个在看!

    展开全文
  • 《Class-balanced Grouping and Sampling for Point Cloud 3D Object Detection》一、摘要:本篇文章为新自动驾驶数据集nuScenes第一名的算法。作者利用稀疏3D卷积来提取丰富的语义特征,然后将其送入类平衡多头网络...

    《Class-balanced Grouping and Sampling for Point Cloud 3D Object Detection》


    一、摘要:

    本篇文章为新自动驾驶数据集nuScenes第一名的算法。作者利用稀疏3D卷积来提取丰富的语义特征,然后将其送入类平衡多头网络以执行3D物体检测。以处理在自动驾驶场景中,类不平衡问题,作者设计了一个类平衡采样和增强策略以生成更平衡的数据,并提出了一个平衡的分组头来提高类别的性能类似的形状。基于比赛结果,我们的方法所有指标均大幅提升PointPillars 基线,在nuScenes数据集上实现最先进的(SOTA)检测性能。

    二、主要贡献:

    传统我们做kitti数据集只有三个类别(车、人、骑行者),而在Nuscenes中,类别上升到十类,且是以长尾形式存在(大量的车,小量的骑行者),这种数据型态更符合真实驾驶场景,也因此产生出类别不均衡的问题。

    本篇文章,作者试图解决Nuscenes中,类别不均衡的问题,具体解决方法有二大点:

    一、我们提出了类平衡采样策略来处理,nuScenes数据集中的极端不平衡问题

    二、我们设计了一个多组头网络,使类似形状或大小的类别可以从中受益彼此,以及不同形状或大小的类别停止互相干扰。

    三、主要方法:

    e58e1fb3fabc943ac4a124fd935c9ddc.png

    Input阶段:

    两种策略解决样本不均衡问题:

    一、DS Sampling (作者提出)

    基本思想是把占比较小的类别进行复制,制作出较大数据集,然后针对每个类别用固定比例random sample这个大的数据集,组合出最终数据集,最终数据集的类别密度(类别数量/样本总数)是相近的,这方法可以减缓样本不平均问题。

    二、GT-AUG (SECOND引用)

    把某一样本中的物体点云数据,放到另一个样本中,过程中需要计算摆放位置是否合理。(详见原文)

    Network阶段 (3D特徵提取网络、RPN):

    使用稀疏3D卷积和skip connection来构建类似resnet的体系结构3D特征提取器网络。这边注意三维的卷积完,会从原本的N ×C ×H ×W变成N× l × C/m × H/n × W/n,五维的没办法用二维RPN进行操作,所以作者讲 l × C/m合并,变回四维,最后使用RPN是类似于VoxelNet的RPN结构(跟SSD类似),先用二维卷积降维三次,才分别反卷积回原大小,Concate在一起,有点类似特徵金字塔的味道,但最后输出是Concate所有从低到高层次的特徵。

    (这边说的RPN其实只是RPN head的部份,真正回归object在下一阶段,此阶段是把特徵从3维做成2维让下一阶段好操作)

    Head階段(Class-balanced Grouping) :

    为了解决类別不均衡问题,作者提出Class Grouping的概念,简而言之,将相似形状的类別分成一个群(Group),让该群中样本数量较多的类去提升样本数量较少的类的精度,而每个Group之间的总数量也接近,如此一来,网络在学习时,就能够减缓数量较多类别有主导整个网络的问题。

    二个重点:

    • 手动区分出每个Group中,该Group包含的类别有哪些,主要是透过样本总数与形状进行分组
    • Group之间样本总数量相近

    目标函数(Loss Function) :

    目标函数部分参照SECOND, 常见的问题如物体正反向问题(朝向相反),在这部份做了小改进,额外加入自己设计的朝向性分类(这部份没写公式,不确定是二分类正反,还是多一个朝向性分支)

    为了降低学习难度,使用了anchor机制,其他设置都SECOND类似,Focal loss做Classification, Smoothl1回归x, y, z, l, w, h, yaw, vx, vy,值得一提的是,每个分支用Uniform Scaling做学习权重。

    其他训练调参数细节详见论文。

    四、实验结果:

    f4fef23988464253c6855752a6f48394.png

    直上结果,目前NuScence第一名,mAP超Pointpillar12个点。

    3ae5a971f5580309aa0d5d698dabe9b4.png

    Ablation studies比较有意思,可以看每个trick具体涨点多少,本篇文章重点就DB-Sample,涨点还算是明显。

    五、结论:

    新的自动驾驶数据集nuScence与kitti其中一个不同点是类别变多,且其类别样本不平均,本篇文章主要提出新的类别不均衡解决方法,透过扩增数据集后,在随机采样以平衡较少的类别,并且将形状类似的分为一组,样本较少的类别能被形状类似的样本较多类别提升精度。

    心得(填坑):

    1. 本文提出的方法透过较多先验知识来完成,包括类别形状,类别数量等,未来是否能考虑用无监督的方法来学习分组,

    2. 进一步探讨解决样本不均衡问题中,DB-sample中相比OHEM、Focal loss等方法有什么优势与劣势,个人觉得DB-sample相比其他解决样本不均衡的方法相对比较手工且暴力。

    各位读者欢迎在下面留言自己的阅读心得~

    展开全文
  • 为了进行更深入的实验,我们需要使用更大更有效的数据集,同时也需要将其他格式的原始数据集转换成Textsum模型可以读入的格式。这里我准备使用CNN新闻数据。我没有使用surmenok的数据转换代码(他那份代码实在是太长...
  • 给定微博话题数据集,从中筛选出前N(N> 0)条微博,作为话题摘要。 问题实质:短文本多文档自动文摘。 流程:数据-算法-评估-展现 数据获取与预先:如何通过编写爬虫获取网站数据? 摘要算法:如何使用Python及其...
  • 摘要从自然图像生成自动描述是一个具有挑战性的问题,近来受到计算机视觉和自然语言处理... 此外,我们概述了评估机器生成图像描述质量的基准图像数据集和评估措施。 最后,我们推断自动图像描述生成领域的未来方向。
  • 由于这个原因,我们一直在通过参加学术会议,以及最近推出的自动驾驶数据集和基于语义地图的3D对象检测的Kaggle竞赛,来帮助研究社区解决自动驾驶这个挑战。 自动驾驶数据集Level5链接:...
  • 使用LSTM的科学文章摘要 该系统旨在使用深度学习工具自动生成科学文章的摘要摘要)。...使用的数据集 从arxiv.org文章来源乳胶(共16780篇)。 先决条件 为了使用我们的框架,您将需要安装以下模块的Python 2.7+
  • 摘要:SemArt数据集是一个包含21384个样本的语料库,它提供了艺术评论以及美术作品及其属性,用于研究语义艺术理解,数据集共3.1G,欢迎访问帕伊提提下载。01自动艺术分析一直致力于将艺术作品分成不同的艺术风格。...
  • 利用tensorflow自动生成英文摘要

    千次阅读 2018-01-04 00:11:20
    (1) 首先是我们把训练数据的每个单词对应一个数值,构建一个word to int的字典,得到单词和数值的一个一一对应的关系后,我们就可以把整个训练数据集把所有单词转化为数值的序列,也就是数值型的数列, (2) 训练数据...
  • 数据集处理 说明:存储库可探索任何带注释的数据集并创建COCO样式的JSON文件,以在带注释的数据集上训练对象检测器。 该存储库支持XML和TXT文件。 摘要统计 Images: 4080 Categories: 20 Total instances: 32964 仅...
  • 摘要我们提出了一个新颖的框架,用于扩增机器学习的反例数据集。反例是分类错误的示例,对重新训练和改进模型具有重要意义。我们框架的关键组件包括一个反例生成器,它生成由模型和错误表错误分类的数据项。错误表是...
  • 3TextRank聚类序列式标注方法序列标注摘要基本框架序列标注集合结合Seq2SeqSeq2seq方式句子排序方式句子排序结合新的打分方式生成式摘要利用外部信息多任务学习生成对抗的方式抽取生成式摘要数据集总结一些参考资料 ...
  • 前沿:在知识图谱中,一个实体可能被多条三元组描述,无法在用户界面中全部呈现,这就需要自动摘要技术,从中选出最有用的几条三元组,称作实体摘要。现有方法大多是无监督的,在这篇IJCAI'20论文中,我们给出了一种...
  • 基于Urbansound8K数据集的环境声识别的方法简述

    千次阅读 热门讨论 2019-07-04 08:55:20
    摘要 根据城市环境声识别的要求,为了选择更优的环境声事件识别方案,我对与UrbanSound8K声音数据集...Urbansound8K 是目前应用较为广泛的用于自动城市环境声分类研究的公共数据集。这个数据集一共包含8732条已标注...
  • 摘要:SemArt数据集是一个包含21384个样本的语料库,它提供了艺术评论以及美术作品及其属性,用于研究语义艺术理解,数据集共3.1G,欢迎访问帕伊提提下载使用(www.payititi.com). 01 自动艺术分析一直致力于将...
  • 汇总的主要思想是找到数据的代表性子,其中包含整个集合的信息。 当今,汇总技术已在许多行业中使用。 -维基百科 此实现的算法为: 查找句子 删除停用词, 通过查找并计算匹配的单词来创建整数值, 通过相关...
  • 基于骨骼数据的人体行为识别摘要人体动作姿态识别是计算机视觉研究领域中最具挑战的研究方向,是当前的研究热点。对人体动作姿态进行自动识别将带来一种全新的交互方式,通过身体语言即人体的姿态和动作来传达用户的...
  • 该系统围绕快速可视化目标值和比较数据集而构建。 其目标是帮助快速分析目标特征,训练与测试数据以及其他此类数据表征任务。 用法和参数如下所述, 。 Sweetviz开发仍在进行中! 如果您遇到任何数据,兼容性或...
  • 摘要:针对通过usgs官网下载需要翻墙且手动操作重复繁琐的问题,采用python作为开发语言,利用Google Cloud上托管的Landsat数据集进行相关数据的查询和下载,此方法可避免翻墙操作,提高数据下载的自动化程度,解放...
  • 谷歌大脑提出自动数据增强方法AutoAugment:可迁移至不同数据集近日,来自谷歌大脑的研究者在 arXiv 上发表论文,提出一种自动搜索合适数据增强策略的方法 AutoAugment,该方法创建一个数据增强策略的搜索空间,利用...
  • CNN-中文文本分类-开源项目-自定义数据集

    千次阅读 热门讨论 2018-11-08 18:30:20
    最近参加学校的一个数据分析比赛,因为自己前面自学了...有效识别出哪些是人类作者生产的内容,哪些是机器作者生产的内容(包括机器写作、机器翻译、机器自动摘要),对于媒体内容的审核、分发、推荐等,具有十分重...
  • 语音增强是一种直接作用在输入话语声谱图上的自动语音增强方法,实践证明在端到端网络上非常有效,训练声学模型使用语音增强的数据和噪音扰动的训练数据,介绍了SpecAugment的一种修改,根据发音的长度调整了时间...
  • 【基于机器学习的脑电图识别】数据集篇:脑电信号自动判读的大数据摘要摘要: 这个数据集包括超过 25000 个脑电图研究,包括一个神经学家对测试的解释,一个简短的病人病史和关于病人的人口统计信息,如性别和...
  • 这是因为我们使用的数据集CNN的单篇篇幅较长,分批次训练时,将一批数据加载入显存,所以占用较高,实际上耗用的计算资源却不多。当然这也可能和模型的框架陈旧,效率较低有关。虽说如此,从训练速度上看,global ...
  • 摘要: 本文以Python代码完成整个鸾尾花图像分类任务,没有调用任何的数据包,适合新手阅读理解,并动手实践体验下机器学习方法的大致流程。 尝试使用过各大公司推出的植物识别APP吗?比如微软识花、花伴侣等这些APP...

空空如也

空空如也

1 2 3 4 5 ... 18
收藏数 358
精华内容 143
关键字:

自动摘要数据集