精华内容
下载资源
问答
  • 文本数据增强方法

    2021-05-20 19:11:45
    当前的有监督的深度学习模型,如果想获得高性能,需要依赖于大量的标注训练数据。然后,在实际上项目中,往往存在训练样本少、标注数据成本高等情况。在这种情况下,我们就需要用到文本数据增强技术。

      当前的有监督的深度学习模型,如果想获得高性能,需要依赖于大量的标注训练数据。然后,在实际上项目中,往往存在训练样本少、标注数据成本高等情况。在这种情况下,我们就需要用到文本数据增强技术。

    1 回译法(Back Translation)

      回译法即将原有的句子翻译为其他语言,然后再翻译回原语言。

    原句:每周三在解决会议室进行Smart Calendar周会。

    输出

    百度翻译:每周三在解决方案会议室举行每周智能日历会议。

    有道翻译:智能日历每周例会每周三在会议室举行。

      回译的方法往往能够增加文本数据的多样性,相比替换词来说,有时可以改变句法结构等,并保留语义信息。但是,回译的方法产生的数据依赖于翻译的质量,大多数出现的翻译结果可能并不那么准确。

    2 EDA(Easy Data Augmentation)

      EDA 包含四种简单但是强大的操作:同义词替换、随机插入、随机交换和随机删除。

    (1)同义词替换(Synonym Replacement,SR)

      从句子中随机选择 n n n 个非停用词,然后每个词随机选择一个同义词替换它们。举例如下:

    原句每周三在会议室进行项目汇报周会。

    输出每周五在会议室进行项目汇报周会。


    (2)随机插入(Random Insertion,RI)

      从句子中随机选择一个非停用词,然后随机选择该词的一个同义词。将该同义词插入到句子中的随机位置。此过程重复 n n n 次。举例如下:

    原句:每周三在会议室进行项目汇报周会。

    输出:每周三在会议室每周四进行项目汇报周会。


    (3)随机交换(Random Swap,RS)

      从句子中随机选择两个词,交换位置。此过程重复 n n n 次。举例如下:

    原句:每周三在会议室进行项目汇报周会。

    输出:每周三在项目进行会议室汇报周会。


    (4)随机删除(Random Deletion,RD)

      句子中的每个词,以概率 p p p 进行随机删除。举例如下:

    原句:每周三在会议室进行项目汇报周会。

    输出:每周三在进行项目汇报周会。


      值得一提的是,长句子相对于短句子,存在一个特性:长句比短句有更多的词,因此在保持原有的类别标签的情况下,长句能吸收更多的噪声。为了利用这个特性,EDA 的作者提出一个方法:基于句子长度来调整需要改变的词数。具体实现:

    • 对同义词替换、随机插入和随机交换,遵循公式: n = α ∗ l n = \alpha * l n=αl,其中, l l l 表示句子长度, α \alpha α 表示一个句子中需要改变的词数的比例。
    • 对随机删除,遵循公式: p = α p = \alpha p=α
    • 另外,每个原始句子,生成 n a u g n_{aug} naug 个增强的句子。

      根据 EDA 作者的测试,EDA 在小的训练数据集上有更好的性能效果。

      针对上面的参数 α \alpha α n a u g n_{aug} naug 的取值,EDA 作者推荐的使用参数如表-1所示。

    表-1 推荐使用参数
    N t r a i n N_{train} Ntrain α \alpha α n a u g n_{aug} naug
    5000.0516
    20000.058
    50000.14
    More0.14

      注意:因为 EDA 在进行数据增强操作的过程中,有可能会改变句子原来的意思,但是仍然保留原始的类别标签,从而产生了标签错误的句子。所以 EDA 存在降低模型性能的可能。

    参考:

    [1] 论文:EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
    [2] EDA 论文作者提供的 GitHub 地址
    [3] EDA 中文版本的 GitHub 地址
    [4] 微信公众号“AINLP”——数据增强在贝壳找房文本分类中的应用

    展开全文
  • 向AI转型的程序员都关注了这个号????????????人工智能大数据与深度学习 公众号:datayx一.概述文本复述任务是指把一句/段文本A改写成文本B,要求文本B采用与文本A略有差异...


    向AI转型的程序员都关注了这个号????????????

    人工智能大数据与深度学习  公众号:datayx

    一.概述
    文本复述任务是指把一句/段文本A改写成文本B,要求文本B采用与文本A略有差异的表述方式来表达与之意思相近的文本。
    改进谷歌的LaserTagger模型,使用LCQMC等中文语料训练文本复述模型,即修改一段文本并保持原有语义。
    复述的结果可用于数据增强,文本泛化,从而增加特定场景的语料规模,提高模型泛化能力。

    二.模型介绍

    谷歌在文献《Encode, Tag, Realize: High-Precision Text Editing》中采用序列标注的框架进行文本编辑,在文本拆分和自动摘要任务上取得了最佳效果。
    在同样采用BERT作为编码器的条件下,本方法相比于Seq2Seq的方法具有更高的可靠度,更快的训练和推理效率,且在语料规模较小的情况下优势更明显。

    谷歌公开了本文献对应的代码,但是原有任务与当前任务有一定的差异性,需要修改部分代码,主要修改如下:


    A.分词方式:原代码针对英文,以空格为间隔分成若干词。现在针对中文,分成若干字。


    B.推理效率:原代码每次只对一个文本进行复述,改成每次对batch_size个文本进行复述,推理效率提高6倍。

    三.文件说明和实验步骤
    1.安装python模块 参见"requirements.txt", "rephrase.sh" 2.训练和评测模型
    文件需求 bert预训练的tensorflow 模型
    采用RoBERTa-tiny-clue(中文版)预训练模型。 网址

    https://storage.googleapis.com/cluebenchmark/pretrained_models/RoBERTa-tiny-clue.zip


    如果想采用其他预训练模型,请修改“configs/lasertagger_config.json".

    代码跑通顺序:第一种方法:修改运行rephrase.sh 第二种方法详解: 

    第一步:制作训练测试验证集 python get_pairs_chinese/get_text_pair_lcqmc.py 获得lcqmc中的文本复述语料(语义一致的文本对,且字面表述差异不能过大,第三列为最长公共子串长度与总长度的比值)
    只需要修改lcqmc的目录位置即可
    python get_pairs_chinese/get_text_pair.py 可根据自己的预料获得文本复述语料(第三列为最长公共子串长度与总长度的比值)
    再运行merge_split_corpus.py 将 结果数据 按比例划分 训练、测试、验证集

    第二步:短语_词汇表_优化 python phrase_vocabulary_optimization.py
    --input_file=./data/train.txt
    --input_format=wikisplit
    --vocabulary_size=500
    --max_input_examples=1000000
    --enable_swap_tag=false
    --output_file=./output/label_map.txt

    第三步:
    1、制作后续训练模型的验证集
    python preprocess_main.py
    --input_file=./data/tune.txt
    --input_format=wikisplit
    --output_tfrecord=./output/tune.tf_record
    --label_map_file=./output/label_map.txt
    --vocab_file=./data/RoBERTa-tiny-clue/vocab.txt
    --max_seq_length=40
    --output_arbitrary_targets_for_infeasible_examples=false 2、制作后续训练模型的训练集
    python preprocess_main.py
    --input_file=./data/train.txt
    --input_format=wikisplit
    --output_tfrecord=./output/train.tf_record
    --label_map_file=./output/label_map.txt
    --vocab_file=./data/RoBERTa-tiny-clue/vocab.txt
    --max_seq_length=40
    --output_arbitrary_targets_for_infeasible_examples=false

    第四步:
    1、训练模型
    python run_lasertagger.py
    --training_file=./output/train.tf_record
    --eval_file=./output/tune.tf_record
    --label_map_file=./output/label_map.txt
    --model_config_file=./configs/lasertagger_config.json
    --output_dir=./output/models/wikisplit_experiment_name
    --init_checkpoint=./data/RoBERTa-tiny-clue/bert_model.ckpt
    --do_train=true
    --do_eval=true
    --train_batch_size=256
    --save_checkpoints_steps=200
    --max_seq_length=40
    --num_train_examples=319200
    --num_eval_examples=5000
    2、 模型整理
    python run_lasertagger.py
    --label_map_file=./output/label_map.txt
    --model_config_file=./configs/lasertagger_config.json
    --output_dir=./output/models/wikisplit_experiment_name
    --do_export=true
    --export_path=./output/models/wikisplit_experiment_name

    第五步 根据test文件进行预测
    python predict_main.py
    --input_file=./data/test.txt
    --input_format=wikisplit
    --output_file=./output/models/wikisplit_experiment_name/pred.tsv
    --label_map_file=./output/label_map.txt
    --vocab_file=./data/RoBERTa-tiny-clue/vocab.txt
    --max_seq_length=40
    --saved_model=./output/models/wikisplit_experiment_name/1587693553
    # 解析,这应该是最后保存的模型文件名称 可以考如下语句获得
    # (ls "./output/models/wikisplit_experiment_name/" | grep -v "temp-" | sort -r | head -1) 第六步 对第五步预测的文件进行打分。
    python score_main.py --prediction_file=./output/models/wikisplit_experiment_name/pred.tsv

    #根据自己情况修改脚本"rephrase.sh"中2个文件夹的路径,然后运行 sh rephrase.sh
    #脚本中的变量HOST_NAME是作者为了方便设定路径使用的,请根据自己情况修改;
    #如果只是离线的对文本进行批量的泛化,可以注释脚本中其他部分,只用predict_main.py就可以满足需求。

    3.启动文本复述服务 根据自己需要,可选
    根据自己情况修改"rephrase_server.sh"文件中几个文件夹的路径,使用命令"sh rephrase_server.sh"可以启动一个文本复述的API服务
    本API服务可以接收一个http的POST请求,解析并对其中的文本进行泛化,具体接口请看“rephrase_server/rephrase_server_flask.py"
    有几个脚本文件如rephrase_for_qa.sh,rephrase_for_chat.sh,rephrase_for_skill.sh是作者自己办公需要的,可以忽略

    四.实验效果

    1. 在公开数据集Wiki Split上复现模型:
      Wiki Split数据集是英文语料,训练模型将一句话拆分成两句话,并保持语义一致,语法合理,语义连贯通顺。

    1. Exact score=15,SARI score=61.5,KEEP score=93,ADDITION score=32,DELETION score=59,
      基本与论文中的Exact score=15.2;SARI score=61.7一致(这些分数均为越高越好)。

    2. 在自己构造的中文数据集训练文本复述模型:
      (1)语料来源
      (A)一部分语料来自于LCQMC语料中的正例,即语义接近的一对文本;
      (B)另一部分语料来自于宝安机场用户QA下面同一答案的问题。; 因为模型的原理,要求文本A和B在具有一定的重合字数,故过滤掉上述两个来源中字面表述差异大的文本,如“我要去厕所”与“卫生间在哪里”。对语料筛选后对模型进行训练和测试。
      (2)测试结果:
      对25918对文本进行复述和自动化评估,评测分数如下(越高越好):
      Exact score=29,SARI score=64,KEEP score=84,ADDITION score=39,DELETION score=66.
      CPU上耗时0.5小时,平均复述一句话需要0.72秒。
      可能是语言和任务不同,在中文文本复述上的评测分数比公开数据集高一些。

    五.一些trick
    1.可以设定对于某些字或词不做修改 如对实体识别NER的语料泛化,需要保证模型不能修改其中的实体;
    对业务语料泛化,也可以根据情况保证模型不能修改其中的关键字 如日期,航班号等;
    目前,是通过正则的方式定位这些不能被模型修改的位置,然后将这些位置的location设置为1,具体实现参见tagging.py.
    2.增加复述文本与原文本的差异度
    可以对训练语料中的text_a先进行随机的swag操作,相应地脚本中enable_swap_tag改为true,再训练模型将其改写为text_b;
    实际应用或测试时同样将原始文本text_a先进行随机的swag操作,然后利用模型改写为text_b;
    因为训练语料中text_a是不通顺,但text_b是通顺的,所以实际应用或测试时仍然会得到通顺的复述结果。

    六.数据集
    1.由于不少人咨询我数据集的问题,现将数据集地址贴在下面
    You can download LCQMC data set from https://download.csdn.net/download/tcd1112/12357994,But other data is the company data can't give you. You can also leave your E-mail, I will send you LCQMC data


    阅读过本文的人还看了以下文章:

    TensorFlow 2.0深度学习案例实战

    基于40万表格数据集TableBank,用MaskRCNN做表格检测

    《基于深度学习的自然语言处理》中/英PDF

    Deep Learning 中文版初版-周志华团队

    【全套视频课】最全的目标检测算法系列讲解,通俗易懂!

    《美团机器学习实践》_美团算法团队.pdf

    《深度学习入门:基于Python的理论与实现》高清中文PDF+源码

    特征提取与图像处理(第二版).pdf

    python就业班学习视频,从入门到实战项目

    2019最新《PyTorch自然语言处理》英、中文版PDF+源码

    《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码

    《深度学习之pytorch》pdf+附书源码

    PyTorch深度学习快速实战入门《pytorch-handbook》

    【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

    《Python数据分析与挖掘实战》PDF+完整源码

    汽车行业完整知识图谱项目实战视频(全23课)

    李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材

    笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!

    《神经网络与深度学习》最新2018版中英PDF+源码

    将机器学习模型部署为REST API

    FashionAI服装属性标签图像识别Top1-5方案分享

    重要开源!CNN-RNN-CTC 实现手写汉字识别

    yolo3 检测出图像中的不规则汉字

    同样是机器学习算法工程师,你的面试为什么过不了?

    前海征信大数据算法:风险概率预测

    【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类

    VGG16迁移学习,实现医学图像识别分类工程项目

    特征工程(一)

    特征工程(二) :文本数据的展开、过滤和分块

    特征工程(三):特征缩放,从词袋到 TF-IDF

    特征工程(四): 类别特征

    特征工程(五): PCA 降维

    特征工程(六): 非线性特征提取和模型堆叠

    特征工程(七):图像特征提取和深度学习

    如何利用全新的决策树集成级联结构gcForest做特征工程并打分?

    Machine Learning Yearning 中文翻译稿

    蚂蚁金服2018秋招-算法工程师(共四面)通过

    全球AI挑战-场景分类的比赛源码(多模型融合)

    斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

    python+flask搭建CNN在线识别手写中文网站

    中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

    不断更新资源

    深度学习、机器学习、数据分析、python

     搜索公众号添加: datayx  


    机大数据技术与机器学习工程

     搜索公众号添加: datanlp

    长按图片,识别二维码

    展开全文
  • EMNLP是由国际计算语言学协会下属特殊兴趣小组SIGDAT...AMiner通过AI技术,对EMNLP2021收录的会议论文进行了分类整理,欢迎下载收藏! AMiner-EMNLP2021:https://www.aminer.cn/conf/emnlp2021/papers?f=cs 1.论文

    EMNLP是由国际计算语言学协会下属特殊兴趣小组SIGDAT发起并组织的系列会议,是自然语言处理领域顶级的国际学术会议之一。EMNLP 2021 将于 11 月 7 日 - 11 日进行,一共接收了656篇长文、191篇短文,Findings接收了305篇长文、119篇短文。
    AMiner通过AI技术,对EMNLP2021收录的会议论文进行了分类整理,欢迎下载收藏!
    AMiner-EMNLP2021:https://www.aminer.cn/conf/emnlp2021/papers?f=cs
    1.论文名称:Investigating Pretrained Language Models for Graph-to-Text Generation
    论文链接:https://www.aminer.cn/pub/5f117b1d91e011264d44775e/?f=cs
    2.论文名称:Solving Aspect Category Sentiment Analysis as a Text Generation Task
    论文链接:https://www.aminer.cn/pub/6168f1a25244ab9dcbe2fe1b/?f=cs
    3.论文名称:The Perils of Using Mechanical Turk to Evaluate Open-Ended Text Generation
    论文链接:https://www.aminer.cn/pub/6141645a5244ab9dcb9ddfa4/?f=cs
    更多详情,可以查看链接:https://www.aminer.cn/conf/emnlp2021/papers?f=cs
    AMiner是一个拥有我国完全自主知识产权的学术科技情报大数据挖掘与服务系统平台。它为产研工作者、科研院所、高校、企业等科技相关的个人和机构提供学术论文搜索,科技情报订阅,技术趋势分析,智慧人才,知识图谱,智谱咨询等科技情报专业化服务。此外,“AMiner订阅小程序”正式上线啦~~
    在任何时间、任何地点,只需要手机打开“AMiner订阅小程序”即可体验AMiner智能推荐系统,第一时间获取领域最新论文,必读论文集合和最新科技资讯推送等~
    小程序首页添加关键词,还可以定制推荐关键词相关的论文,千万论文,随您定制!欢迎大家体验!同时希望大家多多反馈使用意见~
    在这里插入图片描述

    展开全文
  • EMNLP是由国际计算语言学协会下属特殊兴趣小组SIGDAT...AMiner通过AI技术,对EMNLP2021收录的会议论文进行了分类整理,欢迎下载收藏! AMiner-EMNLP2021:https://www.aminer.cn/conf/emnlp2021/papers?f=cs 1.论文

    EMNLP是由国际计算语言学协会下属特殊兴趣小组SIGDAT发起并组织的系列会议,是自然语言处理领域顶级的国际学术会议之一。EMNLP 2021 将于 11 月 7 日 - 11 日进行,一共接收了656篇长文、191篇短文,Findings接收了305篇长文、119篇短文。
    AMiner通过AI技术,对EMNLP2021收录的会议论文进行了分类整理,欢迎下载收藏!
    AMiner-EMNLP2021:https://www.aminer.cn/conf/emnlp2021/papers?f=cs
    1.论文名称:Enriching and Controlling Global Semantics for Text Summarization
    论文链接:https://www.aminer.cn/pub/614bf07e5244ab9dcbc5d57e?f=cs
    2.论文名称:AUTOSUMM: Automatic Model Creation for Text Summarization
    论文链接:https://www.aminer.cn/pub/618cc9d36750f86b37575cb1?f=cs
    3.论文名称:Multiplex Graph Neural Network for Extractive Text Summarization
    论文链接:https://www.aminer.cn/pub/612d9dd25244ab9dcbdfb181?f=cs

    更多详情,可以查看链接:https://www.aminer.cn/conf/emnlp2021/papers?f=cs
    AMiner是一个拥有我国完全自主知识产权的学术科技情报大数据挖掘与服务系统平台。它为产研工作者、科研院所、高校、企业等科技相关的个人和机构提供学术论文搜索,科技情报订阅,技术趋势分析,智慧人才,知识图谱,智谱咨询等科技情报专业化服务。
    此外,“AMiner订阅小程序”正式上线啦~~
    在任何时间、任何地点,只需要手机打开“AMiner微信小程序”即可体验AMiner智能推荐系统,第一时间获取领域最新论文,必读论文集合和最新科技资讯推送等~
    小程序首页添加关键词,还可以定制推荐关键词相关的论文,千万论文,随您定制!欢迎大家体验!同时希望大家多多反馈使用意见~
    在这里插入图片描述

    展开全文
  • 中文文本纠错又分为中文拼写纠错(Chinese Spelling Check, CSC)和...本资源整理了中文文本纠错相关经典论文数据集、系统等资源,需要自取。 资源整理自网络,源地址:https://github.com/destwang/CTCResou...
  • 文本匹配相关论文

    2021-01-18 00:27:04
    文章目录前言传统方法深度文本匹配DSSM :CDSSM:ARC II:CNTN:LSTM-RNN:MV-LSTMMatchPyramidMatch-SRNNKNRMConv-KNRMDRMMSiamese-LSTMDAMESIMDUETBiMPMDIINDRCNRE2DUABERT 前言 \quad 文本匹配在信息检索、自动问答、...
  • 文本交换4.2.1、单词级别的文本顺序交换4.2.2、句子级别的文本顺序交换4.3、 文本语义相关的噪声4.3.1、 随机删除4.3.2、 随机插入5、 同标签句子文本噪声5.1、 随机插入文本5.2、 随机交叉增强6、Mixup 插值增强7、...
  • CVPR 2020 之文本检测识别论文大盘点

    千次阅读 2020-12-25 14:44:08
    本文盘点CVPR 2020 所有文本图像(text)检测和识别相关的论文,主要分为手写文本和场景文本两大方向,总计16篇,对文献进行了细致的分类,大部分论文是围绕识别问题的研究。 方向包括: 1)场景文本检测(Scene ...
  • 文本检测数据集标注

    千次阅读 2021-11-20 00:34:28
    ​ 本文介绍的标注方式和标注工具均为2017年华南理工大学刘禹良提出的弯曲文本标注方式和工具,可以对弯曲文本进行弯曲标注,具体数据集可以查看论文作者提出的SCUT-CTW1500。 ​
  • 随着深度学习的发展,当前最先进的文本检测和识别方法在处理多分辨率和多领域文本时在各个基准数据集展示了卓越的准确性。 该论文集共收录50篇论文,最高引用数是1040,来自华中科技大学的白翔在该领域发表了6篇论文...
  • 任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作;任务成果:学习 Pandas 的字符串操作;2.2 数据处理步骤在原始arxiv数据集中论文作者authors字段是一个字符串格式,其中每个作者使用逗号进行分隔...
  • 深度学习多模态融合指机器从文本、图像、语音、视频等多个领域获取信息,每一个领域就是一种模态,实现信息转换和融合,从而提升模型性能的技术,是一个典型的多学科交叉领域。 关于多模态之间的架构可以参考下这篇...
  • 什么是数据增强 数据增强可以简单理解为由少量数据生成大量数据的过程。...面向文本表示的增强研究: 主要是对原始文本的特征表示进行处理,比如在表示层注入随机噪音等方法,来获得增强后的文本表示。增强后的表示
  • 本篇文章给大家带来的内容是关于web文本数据清洗流程及实例 (实例代码),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。今天,超过80%的数据是非结构化的。文本数据预处理是数据分析前的必经之路...
  • 更多的细节、结果以及分析请参考原论文。 作者:孙鹏飞 编辑:刘莉 校审:何亮 说个正事哈 由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多...
  • 作者 | zhouyue65来源 | 君泉计量原文 | Python数据挖掘——文本分析文本挖掘:从大量文本数据中抽取出有价值的知识,并且利用这些知识重新组织信息的过程。一、语料库(Corpus)语料库是我们要分析的所有文档的集合。...
  • 系统2006年上线,吸引了全球220个国家/地区1000多万独立IP访问,数据下载量230万次,年度访问量超过1100万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。 必读论文:https://www.aminer.cn/topic 论文集...
  • 作者:李攀,北航硕士,Datawhale优秀学习者arXiv是重要的学术公开网站,也是搜索、浏览和下载学术论文的重要工具。它涵盖的范围非常广,涉及物理学的庞大分支和计算机科学的众多子学科...
  • 数据处理方面,我们可能要面对上万条序列的文件,由于文件过大,不要说进行处理了,连打开文本都会直接卡死。 而通过Python输入原始数据后,不仅能自动统计分析海量数据,还能得到满足论文发表的高质量图片。 ▲...
  • 数据集:Syndata - SynthText,数据集比较大,大约40G PyTorch版本:Which version of python and CUDA is used ? 下载PyTorch的CUDA10版本 conda install pytorch==1.0.1 torchvision==0.2.2 cudatoolkit=10.0 ...
  • Unified Language Model 文本生成从未如此轻松前言UniLMHow to build UniLMGet 2D MASKSend 2D MASK to Bert使用UniLM实现新闻标题生成数据处理部分(略)模型训练技巧1:用自定义损失层来代替损失函数技巧2: 结合...
  • 这是在学习数据分析的一个实例,论文数据分析,这是第一部分,笔者刚学习此项内容,有问题大家提出来,不喜勿喷。 任务1:论文数据统计1 1.1 任务说明 任务主题:论文数量统计,即统计2019年全年计算机各个方向论文...
  • ©PaperWeekly 原创 ·作者|王馨月学校|四川大学本科生研究方向|自然语言处理概要数据增强,即通过转换为机器学习人工创建训练数据,是跨机器学习学科广泛研究的研究领域...
  • 本文收集文本检测与识别相关论文,包含任意形状文本检测、场景文本识别、手写文本识别、文本分割、文本图像检索、视频文本识别等,有趣的方向很多,共计 17 篇。
  • 每天给你送来NLP技术干货!来自:南大NLP01—研究动机大规模多标签文本分类(简称LMTC)是自然语言处理领域中一个十分重要的任务,其旨在从一个大规模的标签集合(标签集合大小一般以千为数...
  • 相信所有已经做过科研的人,不管你在哪一个科研领域,在你的成果足够写成论文之前都避免不了进行大量的重复性机械性的工作。这些看上去并没有技术含量的工作有相当一部分便是数据处理了。做大热点的方向,随便做点...
  • 任务:使用Pandas读取数据并统计论文数量,即统计2019年全年计算机各个方向论文数量; 数据集来源:https://www.kaggle.com/Cornell-University/arxiv 数据集格式: id:arXiv ID,可用于访问论文; submitter:...
  • 论文数据统计1.1 任务说明1.2 数据集介绍1.3 arxiv论文类别介绍1.4 具体代码实现以及讲解1.4.1 导入package并读取原始数据1.4.2 数据预处理1.4.3 数据分析及可视化 1.论文数据统计 1.1 任务说明 主题:论文数量统计...
  • 近10年学术论文数据分析!

    千次阅读 2021-01-15 19:57:25
     'authors','title','update_date']) 1.2 爬取论文类别数据 #爬取所有的类别 website_url = requests.get('https://arxiv.org/category_taxonomy').text #获取网页的文本数据 soup = BeautifulSoup(website_...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 72,040
精华内容 28,816
关键字:

文本数据论文