精华内容
下载资源
问答
  • 文本数据增强方法

    2021-05-20 19:11:45
    当前的监督的深度学习模型,如果想获得高性能,需要依赖于大量的标注训练数据。然后,在实际上项目中,往往存在训练样本少、标注数据成本高等情况。在这种情况下,我们就需要用到文本数据增强技术。

      当前的有监督的深度学习模型,如果想获得高性能,需要依赖于大量的标注训练数据。然后,在实际上项目中,往往存在训练样本少、标注数据成本高等情况。在这种情况下,我们就需要用到文本数据增强技术。

    1 回译法(Back Translation)

      回译法即将原有的句子翻译为其他语言,然后再翻译回原语言。

    原句:每周三在解决会议室进行Smart Calendar周会。

    输出

    百度翻译:每周三在解决方案会议室举行每周智能日历会议。

    有道翻译:智能日历每周例会每周三在会议室举行。

      回译的方法往往能够增加文本数据的多样性,相比替换词来说,有时可以改变句法结构等,并保留语义信息。但是,回译的方法产生的数据依赖于翻译的质量,大多数出现的翻译结果可能并不那么准确。

    2 EDA(Easy Data Augmentation)

      EDA 包含四种简单但是强大的操作:同义词替换、随机插入、随机交换和随机删除。

    (1)同义词替换(Synonym Replacement,SR)

      从句子中随机选择 n n n 个非停用词,然后每个词随机选择一个同义词替换它们。举例如下:

    原句每周三在会议室进行项目汇报周会。

    输出每周五在会议室进行项目汇报周会。


    (2)随机插入(Random Insertion,RI)

      从句子中随机选择一个非停用词,然后随机选择该词的一个同义词。将该同义词插入到句子中的随机位置。此过程重复 n n n 次。举例如下:

    原句:每周三在会议室进行项目汇报周会。

    输出:每周三在会议室每周四进行项目汇报周会。


    (3)随机交换(Random Swap,RS)

      从句子中随机选择两个词,交换位置。此过程重复 n n n 次。举例如下:

    原句:每周三在会议室进行项目汇报周会。

    输出:每周三在项目进行会议室汇报周会。


    (4)随机删除(Random Deletion,RD)

      句子中的每个词,以概率 p p p 进行随机删除。举例如下:

    原句:每周三在会议室进行项目汇报周会。

    输出:每周三在进行项目汇报周会。


      值得一提的是,长句子相对于短句子,存在一个特性:长句比短句有更多的词,因此在保持原有的类别标签的情况下,长句能吸收更多的噪声。为了利用这个特性,EDA 的作者提出一个方法:基于句子长度来调整需要改变的词数。具体实现:

    • 对同义词替换、随机插入和随机交换,遵循公式: n = α ∗ l n = \alpha * l n=αl,其中, l l l 表示句子长度, α \alpha α 表示一个句子中需要改变的词数的比例。
    • 对随机删除,遵循公式: p = α p = \alpha p=α
    • 另外,每个原始句子,生成 n a u g n_{aug} naug 个增强的句子。

      根据 EDA 作者的测试,EDA 在小的训练数据集上有更好的性能效果。

      针对上面的参数 α \alpha α n a u g n_{aug} naug 的取值,EDA 作者推荐的使用参数如表-1所示。

    表-1 推荐使用参数
    N t r a i n N_{train} Ntrain α \alpha α n a u g n_{aug} naug
    5000.0516
    20000.058
    50000.14
    More0.14

      注意:因为 EDA 在进行数据增强操作的过程中,有可能会改变句子原来的意思,但是仍然保留原始的类别标签,从而产生了标签错误的句子。所以 EDA 存在降低模型性能的可能。

    参考:

    [1] 论文:EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
    [2] EDA 论文作者提供的 GitHub 地址
    [3] EDA 中文版本的 GitHub 地址
    [4] 微信公众号“AINLP”——数据增强在贝壳找房文本分类中的应用

    展开全文
  • 文本数据增强方法(EDA和回译)代码,解压密码在https://blog.csdn.net/herosunly/article/details/113997077中。
  • 针对这一难题,本文提出了一种基于生成对抗网络的数据增强方法,并将其应用于解决由于数据匮乏,神经网络难以训练的问题.实验结果表明,合成的数据和真实的数据相比既具有语义上的相似性,同时又能呈现出文本上的...
  • 人机交互系统(3.1)——NLP文本数据增强方法

    千次阅读 多人点赞 2019-08-03 11:13:40
    一、数据增强的背景和应用场景 随着AI技术的逐步发展,更好的神经网络模型对数据规模的要求也逐步提升。而在分类任务中,若不同类别数据量相差很大,模型则会出现过拟合现象,严重影响预测的正确性。 从广义上来...

    一、数据增强的背景和应用场景

    在这里插入图片描述

    随着AI技术的逐步发展,更好的神经网络模型对数据规模的要求也逐步提升。而在分类任务中,若不同类别数据量相差很大,模型则会出现过拟合现象,严重影响预测的正确性。

    从广义上来讲,有监督模型的效果相对半监督或无监督学习都是领先的。但是有监督模型需要获取大量的标注数据,当数据需求达到十万、百万甚至更多时,人工标注数据昂贵的代价已经让很多人望而却步。

    如何利用有限的标注数据,获取到更多的训练数据,减少网络中的过拟合现象,训练出泛化能力更强的模型?数据增强无疑是一种强有力的解决方法。

    在这里插入图片描述

    数据增强起初在计算机视觉领域应用较多,主要是运用各种技术生成新的训练样本,可以通过对图像的平移、旋转、压缩、调整色彩等方式创造新的数据。虽然,‘新’的样本在一定程度上改变了外观,但是样本的标签保持不变。且NLP中的数据是离散的,这导致我们无法对输入数据进行直接简单地转换,换掉一个词就有可能改变整个句子的含义。因此本文将重点介绍文本数据增强的方法和技术,以快速补充文本数据。

    二、传统文本数据增强的技术

    现有NLP的Data Augmentation大致有两条思路,一个是加噪,另一个是回译,均为有监督方法。加噪即为在原数据的基础上通过替换词、删除词等方式创造和原数据相类似的新数据。回译则是将原有数据翻译为其他语言再翻译回原语言,由于语言逻辑顺序等的不同,回译的方法也往往能够得到和原数据差别较大的新数据。

    Easy Data Augmentation for Text Classification Tasks (EDA)提出并验证了几种加噪的 text augmentation 技巧,分别是同义词替换(SR: Synonyms Replace)、随机插入(RI: Randomly Insert)、随机交换(RS: Randomly Swap)、随机删除(RD: Randomly Delete),下面进行简单的介绍:

    2.1 EDA

    (1) 同义词替换(SR: Synonyms Replace):不考虑stopwords,在句子中随机抽取n个词,然后从同义词词典中随机抽取同义词,并进行替换。
    Eg: “我非常喜欢这部电影” —> “我非常喜欢这个影片”,句子仍具有相同的含义,很有可能具有相同的标签。

    (2) 随机插入(RI: Randomly Insert):不考虑stopwords,随机抽取一个词,然后在该词的同义词集合中随机选择一个,插入原句子中的随机位置。该过程可以重复n次。
    Eg : “我非常喜欢这部电影” —> “爱我非常喜欢这部影片”。

    (3) 随机交换(RS: Randomly Swap):句子中,随机选择两个词,位置交换。该过程可以重复n次。
    Eg: “如何评价 2017 知乎看山杯机器学习比赛?” —> “2017 机器学习?如何比赛知乎评价看山杯”。

    (4) 随机删除(RD: Randomly Delete):句子中的每个词,以概率p随机删除。
    Eg: “如何评价 2017 知乎看山杯机器学习比赛?" —> “如何 2017 看山杯机器学习 ”。

    这四种方法的效果如何呢?在英文的数据上效果很可观。经过上述四种操作,数据增强后的句子可能不易理解,但作者们发现模型变得更加鲁棒了,尤其是在一些小数据集上。效果如下图:

    在这里插入图片描述

    每一种方法也在作者的结果中展示了还不错的效果:

    在这里插入图片描述

    上图是针对不同训练集大小的五个文本分类任务的EDA操作的平均性能增益。α参数粗略地表示“每次扩充改变的句子中单词的百分比”,纵轴是模型增益。

    我们可以看到,当α = 0.1时,模型提升就能达到很好的效果。训练数据越少,提升效果效果越明显。过多的数据增强数据实际上对模型的提升有限,甚至在RD和SR两种方法上还会严重损害效果。

    总的来说,传统的文本数据增强的方法在小批量数据中都有较好的表现效果,但4种方法的缺点也不能被忽视:

    同义词替换SR有一个小问题,同义词具有非常相似的词向量,而训练模型时这两个句子会被当作几乎相同的句子,但在实际上并没有对数据集进行有效的扩充。
    随机插入RI很直观的可以看到原本的训练数据丧失了语义结构和语义顺序,而不考虑停用词的做法使得扩充出来的数据并没有包含太多有价值的信息,同义词的加入并没有侧重句子中的关键词,在数据扩充的多样性上实际会受限较多。
    随机交换RS实质上并没有改变原句的词素,对新句式、句型、相似词的泛化能力实质上提升很有限。
    随机删除RD不仅有随机插入的关键词没有侧重的缺点,也有随机交换句式句型泛化效果差的问题。随机的方法固然能够照顾到每一个词,但是没有关键词的侧重,若随机删除的词刚好是分类时特征最强的词,那么不仅语义信息可能被改变,标签的正确性也会存在问题。

    2.2 回译

    在这个方法中,我们用机器翻译把一段中文翻译成另一种语言,然后再翻译回中文。

    Eg: “周杰伦是一位华语乐坛的实力唱将,他的专辑卖遍了全球。" —>“Jay Chou is a strength singer in the Chinese music scene, his albums are sold all over the world.”—>“周杰伦是中国音乐界的优秀歌手,他的专辑畅销全世界。”
    这个方法已经成功的被用在Kaggle恶意评论分类竞赛中。反向翻译是NLP在机器翻译中经常使用的一个数据增强的方法,其本质就是快速产生一些翻译结果达到增加数据的目的。

    回译的方法往往能够增加文本数据的多样性,相比替换词来说,有时可以改变句法结构等,并保留语义信息。但是,回译的方法产生的数据依赖于翻译的质量,大多数出现的翻译结果可能并不那么准确。如果使用某些翻译软件的接口,也可能遇到账号限制等情况。

    三、 深度学习数据增强技术

    3.1 半监督 Mixmatch

    半监督学习方法的提出是为了更好地利用未标注的数据,减轻对于大规模标注数据集的依赖;如今也证明了这是一种强有力的学习范式。

    在这篇论文中,作者们把当前不同任务中的做法为半监督学习做了统一,得到了一种新的算法——MixMatch。它的工作方式是通过 MixUp 猜测数据扩增方法产生的无标签样本的低熵标签,并把无标签数据和有标签数据混合起来。

    作者们通过实验表明 MixMatch 在多种不同的数据集、多种不同的有标签数据规模中都能以很大幅度领先此前的所有方法。比如,在 CIFAR 数据集上、只有 250 个标签的情况下,作者们把错误率降低到了之前方法的 1/4,在 STL-10 数据集上也降低到了之前方法的一半。

    作者们也展示了 MixMatch 可以在差分隐私的使用目的下,在准确率和隐私保护之间取得好得多的平衡。最后,作者们进行了对照实验,分析了 MixMatch 方法中的哪些组件最为关键。

    3.2 无监督数据增强UDA

    由EDA结果可知,传统的数据增广方法有一定的效果,但主要针对小数据量,对于渴求大量训练数据的深度学习模型,传统的方法效果始终有限。而Unsupervised Data Augmentation(UDA)无监督数据扩增方法的提出,为大量数据缺失打开了一扇大门。

    MixMatch 算法除了使用普通的数据增广,还有一个秘诀是 Mixup 增广术。而 UDA 的成功,得益于对特定任务使用特定目标的数据增强算法。

    与常规噪声比如高斯噪声、dropout 噪声相比,针对不同任务使用不同数据增强方法能够产生更有效的数据。这种方法能够产生有效、真实的噪声,且噪音多样化。另外以目标和性能为导向的数据增强策略可以学习如何在原始标记集中找出丢失的或最想要的训练信号(比如图像数据以颜色为目标进行数据增强)。

    下图展示了UDA训练时的目标和结构,为了使用标记和未标记的所有数据,对有标签的数据训练时加入了cross entropy loss 函数。对未标记数据,与Mixmatch使用 l2 loss 不同,UDA对增广后未标记的数据预测结果使用KL散度。Targeted data augmentation 特定目标的数据增强则包括了back translation回译、autoaugment(图像)、TFIDF word replacement。其中回译是从英文转法文再译回英文,IDF是从DBPedia语料中获取。

    在这里插入图片描述

    作者在文本的处理方式上选用了回译和关键词提取两种方式,回译的方式可以帮助丰富数据的句式和句型,而tfidf方法优化了EDA的随机处理词策略,根据DBPedia先验知识和实际预料的词频确定关键词,再根据确定好的关键词替换同义词,避免无用数据和错误数据的产生。

    另外,UDA优秀的另一个重要的突破是采用了Training Signal Annealing(TSA)方法在训练时逐步释放训练信号。

    当收集了少量的标注的数据和大量未标记的数据时,可能会面临标记数据和未标记数据相差很大的情况。比如标记的数据都和保险相关,但未标记的数据都是热点新闻。因为需要采用大量的未标记数据进行训练,所需的模型会偏大,而大模型又会轻松的在有限的有监督数据上过拟合,这时TSA就要逐步的释放有监督数据的训练信号了。

    作者对每个training step 都设了一个阈值ηt,且小于等于1,当一个标签例子的正确类别P的概率高于阈值ηt时,模型从损失函数中删除这个例子,只训练这个minibatch下其他标记的例子。

    在这里插入图片描述
    如上图展示了3种TSA的方式,这3种方式适用于不同数据。exp模式更适合于问题相对容易或标注量较少的情况。因为监督信号主要在训练结束时释放,且可以防止模型快速过拟合。同理,log模式适合大数据量的情况,训练过程中不太容易过拟合。

    那么UDA效果如何呢?作者的实验结果显示,这种无监督方法创造的数据在多个任务上都有很好的表现:①在 IMDb 数据集的分类测试中,UDA 只使用 20 个标签就得到了比此前最好的方法在 25,000 个有标签数据上训练更好的结果;②在标准的半监督学习测试(CIFAR-10,4000 个标签;以及 SVHN,1000 个标签)中,UDA 击败了此前所有的方法,包括MixMatch,而且把错误率降低了至少 30%;③在大规模数据集上,比如在 ImageNet 上,只需要额外增加 130 万张无标签图像,相比此前的方法,UDA 也可以继续提升首位和前五位命中率。

    四、数据增强技术实践

    利用eda和回译的方法扩增数据我们已经写入以下项目:
    https://github.com/wac81/textda
    可以通过pip安装调用

    pip install textda
    
    from textda.data_expansion import *
    print(data_expansion('生活里的惬意,无需等到春暖花开'))
    

    output:
    [‘生活里面的惬意,无需等到春暖花开’,
    ‘生活里的等到春暖花开’,
    ‘生活里无需惬意,的等到春暖花开’,
    ‘生活里的惬意,无需等到春暖花开’,
    ‘生活里的惬意,并不需要等到春暖花开’,
    ‘生活无需的惬意,里等到春暖花开’,
    ‘生活里的惬意,等到无需春暖花开’]

    4.1 某翻译软件回译:

    原句:生活里的惬意,无需等到春暖花开
    中—>英—>中:生活的舒适,无需等到春天开花
    中—>日—>中:生活的舒适,无需等到春天的花朵
    中—>德—>中:生活的舒适,无需等到春天开花
    中—>法—>中:生活的舒适,无需等待春天的花朵

    4.2 EDA 产生的数据:

    在这里插入图片描述

    4.3 textda对不平衡文本分类的效果提升

    此处以情感正中负文本3分类结果为例:
    最初训练文本:neg1468,pos 8214, neu 712
    测试文本:neg1264, pos 1038, neu 708
    分类模型:fastText文本分类器训练模型

    由下图的confusion matrix 可知模型整体加权 f1值为 0.749

    在这里插入图片描述

    利用textda的方法将数据扩充至 neg:7458 ,pos:8214 ,neu:3386
    当数据趋于平衡,f1值上升到0.783,将近4个百分点

    在这里插入图片描述

    由此可见数据增强方法在处理数据不平衡的分类任务上可以提高模型的性能。

    五、数据增强的拓展

    5.1 其他数据增强方法

    数据增强方法还有很多,且在文本、语音、图像上的方法都各有不同。

    (1)音频:
    噪声增强
    随机相同类型抽取拼接
    时移增强
    音高变换增强
    速度调整
    音量调整
    混合背景音
    增加白噪声
    移动音频
    拉伸音频信号
    (2)图像:
    水平翻转垂直翻转
    旋转
    缩放 放大缩小
    裁剪
    平移
    高斯噪声
    生成对抗网络 GAN
    AutoAugment
    (3)文本其他数据增强方法:
    语法树结构替换
    篇章截取
    seq2seq序列生成数据
    生成对抗网络 GAN
    预训练的语言模型
    无论是文本、语音还是图像,数据增强虽然有不同的方法,但这些方法本质上是相似的:传统直观的方法是对不同信号的裁剪、拼接、交换、旋转、拉伸等方式,采用深度学习模型的方法主要为生成和原数据相类似的数据。

    5.2 防止过拟合其他方法

    在深度学习中,为了避免出现过拟合(Overfitting),通常输入充足的数据量是最好的解决办法。当数据无法达到模型的要求或者添加数据后模型由于某类数据过多导致过拟合时,以下方法也可以发挥一些作用:

    Regularization:数据量比较小会导致模型过拟合, 使得训练误差很小而测试误差特别大。通过在Loss Function 后面加上正则项可以抑制过拟合的产生。缺点是引入了一个需要手动调整的hyper-parameter。
    Dropout:这也是一种正则化手段,不过跟以上不同的是它通过随机将部分神经元的输出置零来实现。
    Unsupervised Pre-training:用Auto-Encoder或者RBM的卷积形式一层一层地做无监督预训练, 最后加上分类层做有监督的Fine-Tuning。
    Transfer Learning(迁移学习):在某些情况下,训练集的收集可能非常困难或代价高昂。因此,有必要创造出某种高性能学习机(learner),使得它们能够基于从其他领域易于获得的数据上进行训练,并能够在对另一领域的数据进行预测时表现优异。

    六、总结和展望

    训练机器学习或深度学习模型时,良好的数据往往是影响模型的效果最重要的因素之一。而数据不足时数据增强是一个常用的方法。

    文本数据增强从对原数据词的变动到句子的变动到段落的变动都有不同的方法,为了保证能够真实提高数据的质量,有以下几个点尤为重要:

    (1)增加的数据要保证和原数据一致的语义信息。
    新增后的数据和原数据拥有一样标签的同时,更需要保证有一样的语义信息。单独随机去掉某个词的方式很可能会改变整句的含义(比如去掉一个否定词)。

    (2)增加的数据需要多样化。
    从替换词、句式、句型等方面都需要有新的数据以增强模型的泛化能力,单独交换词的方式较为局限。

    (3)增加的数据要避免在有标签数据上过拟合。
    当大量的数据在少量的有标签数据上过拟合时,模型虽然可能会出现很高的f1值,但真实的预测效果会相差很多。保证多样化的数据还要保证数据的质量。

    (4)增加的数据和原数据保持一定的平滑性会更有价值,提高训练效率。
    生成的数据更接近于真实数据可以保证数据的安全性,大噪音产生的数据和原始数据的标签很可能不同。尤其在某些序列模型中,文本数据的通顺程度严重影响模型的预测。

    (5)增加数据的方法需要带着目标去选择。
    对数据缺失的需求明确才能更快的找到理想的数据,对某些关键词的同义词需求较多可以偏重替换词的方式,对句式缺失较多可以偏重回译或者句式语法结构树变换的方式。

    对于小数据的情况,使用文本回译或EDA中的简单方法可以达到效果的提升;但想要使用大批量的数据训练神经网络模型,EDA或者回译的方式产生的文本可能并不能满足需求。

    而UDA这种无监督数据增强技术,无论对于小数据量或大数据量数据,都可以找到带有目标性的方法获得增强后的平滑的数据,甚至有时效果高于有监督方法训练的模型。

    综上,数据增强的方法可以作为我们训练nlp模型时一个快速解决数据不平衡或数据缺失的强有力的工具。

    七、参考文献:

    [1] Wei, J. W. and Zou, K. Eda: Easy data augmentation techniques for boosting performance on text classification tasks. arXiv preprint arXiv:1901.11196 ,2019.
    [2] David Berthelot, Nicholas Carlini, Ian Goodfellow, Nicolas Papernot, Avital Oliver, and Colin Raffel. Mixmatch: A holistic approach to semi-supervised learning. arXiv:1905.02249 [cs.LG], 2019.
    [3] Q. Xie, Z. Dai, E. Hovy, M.-T. Luong, and Q. V. Le.Unsupervised Data Augmentation. arXiv e-prints, page arXiv:1904.12848, Apr 2019.
    [4] Ekin D Cubuk, Barret Zoph, Dandelion Mane, Vijay Vasudevan, and Quoc V Le. Autoaugment: Learning augmentation policies from data. arXiv preprint arXiv:1805.09501, 2018.

    关注我的技术公众号《漫谈人工智能》,每天推送优质文章

    展开全文
  • 方法名为LAMBADA(Language Model Based Data Augmentation),核心思路为: 下面看一下每个步骤具体实施的过程: 选用一个分类算法在训练集上训练一个分类器。分类算法文中用了BERT,SVM和LSTM。记住这个分类器,...

    这是一篇发表在AAAI2020上的一篇文章,附上链接:https://aaai.org/ojs/index.php/AAAI/article/view/6233

    方法名为LAMBADA(Language Model Based Data Augmentation),核心思路为:

    下面看一下每个步骤具体实施的过程:

    1. 选用一个分类算法在训练集上训练一个分类器。分类算法文中用了BERT,SVM和LSTM。记住这个分类器,第四步的时候要用。
    2. 这一步得到一个用于生成句子的模型:把训练集的数据组织成ySEPxEOS的格式,y是类别标签,SEP作为分隔符,x是需要分类的句子,EOS作为结束符。然后微调一个预训练好的语言模型,论文中使用的是GTP-2。这一步的主要目的是,微调之后给定一个类别标签,这个微调过的语料模型就能把后面的内容补全,从而生成对应类别标签y的句子x。
    3. 在上一步得到模型之后,每给模型一个ySEP。这个语言模型就能生成相应类别的句子。这样做的好处是每个类别都能生成数量相当的句子,不会造成类别上的不平衡。这样就可以得到合成的(synthesized)训练集。
    4. 利用第一步得到的分类器,过滤合成训练集中质量比较低的样本,提高构造数据的质量,得到我们最终需要的样本。

    总结:

    让我感到比较新奇的地方就是:我们之前都是给一个句子,判断句子的类别。这篇文章实现了给一个类别,能生成相应的句子。可能之前也有工作做了这个东西,不过我是没看到。

    展开全文
  • 用于场景文本图像数据增强的工具。 我们提供的工具可以避免过度拟合并获得模型的稳健性。
  • 数据增强是通过转换为机器学习人工创建训练数据,是机器学习学科中一个广泛研究的研究领域。虽然它对于提高模型的泛化能力很有用,但它也可以解决许多其他挑战和问题,从克服有限数量的训练数据到规范目标到限制数据...
  • 数据增强技术在很多领域应用广泛,例如:在图像领域中:旋转、反转、噪声、mixup、cutmix等等;在语音识别领域:语音信号添加随机背景噪声、语谱图随机mask等等...... 在文本领域也很多方法:其中ICLR 2019...

    数据增强技术在很多领域应用广泛,例如:在图像领域中有:旋转、反转、噪声、mixup、cutmix等等;在语音识别领域有:语音信号添加随机背景噪声、语谱图随机mask等等......

     

    在文本领域也有很多方法:其中 ICLR 2019 workshop论文《EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks》介绍了几种NLP数据增强技术。

    代码可以看这里:https://github.com/jasonwei20/eda_nlp/blob/master/code/eda.py

    其中包括:

    (1)同义词替换:不考虑stopwords,在句子中随机抽取n个词,然后从同义词词典中随机抽取同义词,并进行替换。

    样例: “我非常喜欢这部电影” —> “我非常喜欢这个影片”,句子仍具有相同的含义,很有可能具有相同的标签。

    def synonym_replacement(words, n):
        new_words = words.copy()
        random_word_list = list(set([word for word in words if word not in s
    展开全文
  • 文本数据增强

    2020-06-08 17:32:59
    文本数据增强https://www.zhihu.com/collection/540515296 英文原版:https://amitness.com/2020/05/data-augmentation-for-nlp/#8-generative-methods ICLR 2019 workshop 论文《EDA: Easy Data Augmentation ...
  • 一种文本聚类的增强数据挖掘方法.pdf
  • NLP文本数据增强热门技术背景word替换同义词替换插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少...
  • 为了解决抽取式摘要方法缺少训练数据的问题,已有方法通常将用于生成式文本摘要的数据集进行简单转换,例如, Cheng等【参考文献6】将CNN/ Daily Mail数据集中的每篇文本中句子与生成式摘要句计算匹配度,匹配度较高...
  • 利用eda函数对文本数据进行增强

    千次阅读 2019-06-27 18:11:28
    近期接手一个项目,时关于...但是过采样对文本数据无用,所以得先进行词向量的转换,转换完之后我发现准确率还是上不去,后来看了一下word2vec原理,是按照输入的文本数据进行分词统计,在计算词向量,所以这样利用...
  • 文本特征处理 学习目标: ... 这些特征处理工作能够有效的将重要的文本特征加入模型训练中, 增强模型评估指标. 常见的文本特征处理方法: 添加n-gram特征 文本长度规范 1 什么
  • python图像数据增强

    2019-03-16 16:47:01
    此代码用于实现图像数据增强,对图片进行批量处理。包括图片旋转、翻转、模糊、增加噪声、亮度几种处理。运行需要安装python、opencv、numpy等。 使用时将图片统一放在img文件夹中,并将img文件夹和下载的py文件放在...
  • 大数据文本分析方法(The data and full Jupyter notebook walk-through can be found here.) (数据和完整的Jupyter笔记本演练可以在 此处 找到 。) If you’re looking for a job as a data analyst or scientist, ...
  • 在中文数据少的情况下,可以尝试做数据增强,进行 同义词替换-新增-交换-删除-生成同义句,刚好用到,效果还可以,转载一篇使用博客 原文链接: https://blog.csdn.net/rensihui/article/details/89605517 github...
  • 文本情感分类 文本分类是自然语言处理的一个常见任务,它把一...文本情感分类数据集 使用循环神经网络进行情感分类 使用卷积神经网络进行情感分类 训练模型 训练时可以调用之前编写的 train 及 evaluate_accuracy 函数
  • 一.中文文本数据增强 (中文文本、同义句生成、扩充,增加,...使用中文文本数据增强还是很必要的,尤其是项目初期语料不够(估计只能手工构建),或者是样本严重不均衡的情况(比如说分类中一个类200条数据...
  • 复述的结果可用于数据增强文本泛化,从而增加特定场景的语料规模,提高模型泛化能力。 二.模型介绍 谷歌在文献《Encode, Tag, Realize: High-Precision Text Editing》中采用序列标注的框架进行文本编辑,在文本...
  • 一.中文文本数据增强 (中文文本、同义句生成、扩充增加,...很多时候,使用中文文本数据增强还是很必要的,尤其是项目初期语料不够(估计只能手工构建),或者是样本严重不均衡的情况(比如说分类中一个类20...
  • 数据增强方式: # 包括: # 1. 裁剪(需改变bbox) # 2. 平移(需改变bbox) # 3. 改变亮度 # 4. 加噪声 # 5. 旋转角度(需要改变bbox) # 6. 镜像(需要改变bbox) # 7. cutout ...
  • 深度学习视觉领域的增强方法可以很大程度上提高模型的表现,并减少数据的依赖,而NLP上做数据增强不像在图像上那么方便,但还是一些方法的。与计算机视觉中使用图像进行数据增强不同,NLP中文本数据增强是非常罕见...
  • 4.3 文本数据分析

    千次阅读 2020-05-17 21:29:21
    掌握常用的几种文本数据分析方法. 文本数据分析的作用: 文本数据分析能够有效帮助我们理解数据语料, 快速检查出语料可能存在的问题, 并指导之后模型训练过程中一些超参数的选择. 常用的几种...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 134,871
精华内容 53,948
热门标签
关键字:

文本数据增强的方法有哪些