精华内容
下载资源
问答
  • 数据增强

    2019-05-21 15:51:43
    在深度学习中数据增强的意思 深度学习往往需要大量的样本数进行训练,而实际情况中数据并没有我们想象中的那么多,这时就要用到数据增强 数据增强是用来1.增加训练的数据量,提高模型的泛化能力。2.增加噪声数据,...

    在深度学习中数据增强的意思
    深度学习往往需要大量的样本数进行训练,而实际情况中数据并没有我们想象中的那么多,这时就要用到数据增强
    数据增强是用来1.增加训练的数据量,提高模型的泛化能力。2.增加噪声数据,提升模型的鲁棒性,避免过拟合。
    数据增强可以分为两类,一类是离线增强,一类是在线增强。
    离线增强 : 直接对数据集进行处理,数据的数目会变成增强因子 x 原数据集的数目 ,这种方法常常用于数据集很小的时候
    在线增强 : 这种增强的方法用于,获得 batch 数据之后,然后对这个 batch 的数据进行增强,如旋转、平移、翻折等相应的变化,由于有些数据集不能接受线性级别的增长,这种方法长用于大的数据集,很多机器学习框架已经支持了这种数据增强方式,并且可以使用 GPU 优化计算。
    下面列举几种比较简单的数据增强的效果

    1. 翻转
      水平或者垂直旋转图像,增加数据样本
      在这里插入图片描述
    2. 缩放
      图像可以被放大或缩小。放大时,放大后的图像尺寸会大于原始尺寸。大多数图像处理架构会按照原始尺寸对放大后的图像进行裁切。下图中的图像都是进行了一定比例的放大

    在这里插入图片描述
    3. 裁剪
    我们随机从原始图像中采样一部分。然后将这部分图像调整为原始图像大小。
    在这里插入图片描述
    4.高斯噪声
    过拟合(Overfitting)经常会发生在神经网络试图学习高频特征(即非常频繁出现的无意义模式)的时候,而学习这些高频特征对模型提升没什么帮助。
    那么如何处理这些高频特征呢?一种方法是采用具有零均值特性的高斯噪声,它实质上在所有频率上都能产生数据点,可以有效的使高频特征失真,减弱其对模型的影响。
    在这里插入图片描述

    展开全文
  • NLP数据增强;中文数据增强包;一键中文数据增强

    千次阅读 热门讨论 2020-03-07 22:35:23
    NLP Chinese Data Augmentation 一键中文数据增强工具 介绍 一键中文数据增强工具,支持: 随机实体替换 近义词 近义近音字替换 随机字删除 在不改变原文的情况下生成指定数量的训练语料文本 Email:425776024@qq....

    NLP Chinese Data Augmentation 一键中文数据增强工具

    使用:pip install nlpcda

    开源不易,欢迎 star🌟

    pypi:https://pypi.org/project/nlpcda/


    介绍

    一键中文数据增强工具,支持:

    经过细节特殊处理,比如不改变年月日数字,尽量保证不改变原文语义。即使改变也能被猜出来、能被猜出来、能被踩出来、能被菜粗来、被菜粗、能菜粗来

    计划中的未来内容

    • 增加多线程操作,一键操作
    • 使用 WordNet数据库 来做同义词替换
    • 随机噪声注入?随机插入一些字符,太简单实现了。
    • 利用pingyin?https://github.com/mozillazg/python-pinyin
    • 基于Word2Vec、BERT等词向量的词语近距离的替换、MASK猜测置换 ??但是无法控制它生成,以及缺点MASK位置。
    • 引入TF-IDF、TextRank、关键词字典等,可以选择:替换/不替换关键词 ??

    意义

    • 在不改变原文语义的情况下,生成指定数量的训练语料文本
    • 对NLP模型的泛化性能、对抗攻击、干扰波动,有很好的提升作用
    • 参考比赛(本人用此策略+base bert拿到:50±/1000):https://www.biendata.com/competition/2019diac/

    API

    1.随机(等价)实体替换

    参数:

    • base_file :缺省时使用内置(公司)实体。对公司实体进行替换

      是文本文件路径,内容形如:
      实体1
      实体2

      实体n

    • create_num=3 :返回最多3个增强文本
    • change_rate=0.3 : 文本改变率
    • seed : 随机种子
    from nlpcda import Randomword
    
    test_str = '''这是个实体:58同城;今天是2020年3月8日11:40,天气晴朗,天气很不错,空气很好,不差;这个nlpcad包,用于方便一键数据增强,可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''
    
    smw = Randomword(create_num=3, change_rate=0.3)
    rs1 = smw.replace(test_str)
    
    print('随机实体替换>>>>>>')
    for s in rs1:
        print(s)
    '''
    随机实体替换>>>>>>
    这是个实体:58同城;今天是2020年3月8日11:40,天气晴朗,天气很不错,空气很好,不差;这个nlpcad包,用于方便一键数据增强,可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
    这是个实体:长兴国际;今天是2020年3月8日11:40,天气晴朗,天气很不错,空气很好,不差;这个nlpcad包,用于方便一键数据增强,可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
    这是个实体:浙江世宝;今天是2020年3月8日11:40,天气晴朗,天气很不错,空气很好,不差;这个nlpcad包,用于方便一键数据增强,可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
    '''
    
    

    2.随机同义词替换

    参数:

    • base_file :缺省时使用内置同义词表,你可以设定/自己指定更加丰富的同义词表:

      是文本文件路径,内容形如(空格隔开):
      Aa01A0 人类 生人 全人类
      id2 同义词b1 同义词b2 … 同义词bk

      idn 同义词n1 同义词n2\

    • create_num=3 :返回最多3个增强文本
    • change_rate=0.3 : 文本改变率
    • seed : 随机种子
    from nlpcda import Similarword
    
    test_str = '''这是个实体:58同城;今天是2020年3月8日11:40,天气晴朗,天气很不错,空气很好,不差;这个nlpcad包,用于方便一键数据增强,可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''
    
    smw = Similarword(create_num=3, change_rate=0.3)
    rs1 = smw.replace(test_str)
    
    print('随机同义词替换>>>>>>')
    for s in rs1:
        print(s)
    
    '''
    随机同义词替换>>>>>>
    这是个实体:58同城;今天是2020年3月8日11:40,天气晴朗,天气很不错,空气很好,不差;这个nlpcad包,用于方便一键数据增强,可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
    这是个实体:58同城;今天是2020年3月8日11:40,天气晴朗,天气很不错,空气很好,不差;这个nlpcad包,用于方便一键数量增强,可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
    这是个实体:58同城;今天是2020年3月8日11:40,天气晴朗,天气很不错,空气很好,不差;斯nlpcad包,用于方便一键数据增强,可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
    '''
    
    
    

    3.随机近义字替换

    参数:

    • base_file :缺省时使用内置【同义同音字表】,你可以设定/自己指定更加丰富的同义同音字表:

      是文本文件路径,内容形如(\t隔开):
      de 的 地 得 德 嘚 徳 锝 脦 悳 淂 鍀 惪 恴 棏
      拼音2 字b1 字b2 … 字bk

      拼音n 字n1 字n2\

    • create_num=3 :返回最多3个增强文本
    • change_rate=0.3 : 文本改变率
    • seed : 随机种子
    from nlpcda import Homophone
    
    test_str = '''这是个实体:58同城;今天是2020年3月8日11:40,天气晴朗,天气很不错,空气很好,不差;这个nlpcad包,用于方便一键数据增强,可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''
    
    smw = Homophone(create_num=3, change_rate=0.3)
    rs1 = smw.replace(test_str)
    
    print('随机近义字替换>>>>>>')
    for s in rs1:
        print(s)
    
    '''
    随机近义字替换>>>>>>
    这是个实体:58同城;今天是2020年3月8日11:40,天气晴朗,天气很不错,空气很好,不差;这个nlpcad包,用于方便一键数据增强,可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
    这是个实体:58同城;今填是2020年3月8日11:40,天气晴朗,天气很不错,空气痕好,不差;这个nlpcad包,用于方便一键数据增强,可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
    鷓是个实体:58同乘;今天是2020年3月8日11:40,天迄晴朗,天气很不错,空气很儫,不差;这个nlpcad包,用于方便一键数据增强,犐有效增牆NLP模型的橎化性能、减少波动、抵抗对抗攻击
    '''
    
    

    4.随机字删除

    参数:

    • create_num=3 :返回最多3个增强文本
    • change_rate=0.3 : 文本改变率
    • seed : 随机种子
    from nlpcda import RandomDeleteChar
    
    test_str = '''这是个实体:58同城;今天是2020年3月8日11:40,天气晴朗,天气很不错,空气很好,不差;这个nlpcad包,用于方便一键数据增强,可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''
    
    smw = RandomDeleteChar(create_num=3, change_rate=0.3)
    rs1 = smw.replace(test_str)
    
    print('随机字删除>>>>>>')
    for s in rs1:
        print(s)
    
    '''
    随机字删除>>>>>>
    这是个实体:58同城;今天是2020年3月8日11:40,天气晴朗,天气很不错,空气很好,不差;这个nlpcad包,用于方便一键数据增强,可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
    这是个实体:58同城;今天是2020年3月8日11:40,天气晴朗,天气很不错,空气,不差;这个nlpcad包用于方便一键数据增强,可有效增强NLP模型的泛化性能、减少波动、抵抗对抗
    个实体:58同城;今天是2020年3月8日11:40,天气晴朗,天气很不错空气很好,不差;这个nlpcad包,用于方便一键数据增强,可有效增强NLP模型泛化性能、减少波动、抵抗对抗
    '''
    
    

    5.NER命名实体 数据增强

    输入标注好的NER数据目录,和需要增强的标注文件路径,和增强的数量,即可一键增强

    Ner类参数:

    • ner_dir_name=‘ner_data’ : 在ner数据放在ner_data目录下(里面很多.txt)
    • ner_dir_name提供的目录下是各种标注数据文件,文件内容以标准的NER 的BIO格式分开:

    字1 \t TAG

    北 \t B-LOC

    京 \t I-LOC

    今 \t O

    天 \t O

    很 \t O

    热 \t O

    。 \t O

    • ignore_tag_list=[‘O’] : 数据里面O标签的不需要管
    • data_augument_tag_list=[‘P’, ‘LOC’] : 只对P、LOC标签的实体做增强
    • augument_size=3 : 每条标注数据,最多新增强数量
    • seed=0 : 随机种子/ 可缺省

    调用函数augment()参数

    • file_name: 1条标注训练文件的路径,如0.txt
    • ner.augment(file_name=‘0.txt’)

    例子:

    from nlpcda import Ner
    
    ner = Ner(ner_dir_name='ner_data',
            ignore_tag_list=['O'],
            data_augument_tag_list=['P', 'LOC','ORG'],
            augument_size=3, seed=0)
    data_sentence_arrs, data_label_arrs = ner.augment(file_name='0.txt')
    # 3条增强后的句子、标签 数据,len(data_sentence_arrs)==3
    # 你可以写文件输出函数,用于写出,作为后续训练等
    print(data_sentence_arrs, data_label_arrs)
    

    6.随机置换邻近的字

    • char_gram=3:某个字至于邻近的3个字交换
    • 内部细节:遇到数字,符号等非中文,不会交换
    from nlpcda import CharPositionExchange
    
    ts = '''这是个实体:58同城;今天是2020年3月8日11:40,天气晴朗,天气很不错,空气很好,不差;这个nlpcad包,用于方便一键数据增强,可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''
    smw = CharPositionExchange(create_num=3, change_rate=0.3,char_gram=3,seed=1)
    rs=smw.replace(ts)
    for s in rs:
        print(s)
    
    '''
    这是个实体:58同城;今天是2020年3月8日11:40,天气晴朗,天气很不错,空气很好,不差;这个nlpcad包,用于方便一键数据增强,可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
    这实个是体:58城同;今天是2020年3月8日11:40,天气晴朗,天气很不错,空气很好,差不;这个nlpcad包,便用一数方增键强据于,增有效可强NLP模型性泛化的能、动少减波、抵对攻抗抗击
    这是个体实:58城同;今是天2020年3月8日11:40,朗气晴天,天气很错不,空好很气,不差;个这nlpcad包,方便键一据增用数于强,可有效强增NLP模型的性化泛能、动减波少、抗抗击抵对攻
    '''
    
    

    7.翻译互转实现的增强

    1.百度中英翻译互转实现的增强
    note:

    申请你的 appid、secretKey: http://api.fanyi.baidu.com/api/trans

    from nlpcda import baidu_translate
    
    zh = '天气晴朗,天气很不错,空气很好'
    # 申请你的 appid、secretKey
    # 两遍洗数据法(回来的中文一般和原来不一样,要是一样,就不要了,靠运气?)
    en_s = baidu_translate(content=zh, appid='xxx', secretKey='xxx',t_from='zh', t_to='en')
    zh_s = baidu_translate(content=en_s, appid='xxx', secretKey='xxx',t_from='en', t_to='zh')
    print(zh_s)
    
    

    2.谷歌翻译互转实现的增强

    pip 包:py-googletrans

    免费的谷歌翻译API,需要翻墙且不稳定

    https://py-googletrans.readthedocs.io/en/latest

    pip install googletrans

    from googletrans import Translator
    def googletrans(content='一个免费的谷歌翻译API', t_from='zh-cn', t_to='en'):
        translator = Translator()
        s = translator.translate(text=content, dest=t_to,src=t_from)
        return s.text
    
    

    8.等价字替换

    参数:

    • base_file :缺省时使用内置【等价数字字表】,你可以设定/自己指定更加丰富的等价字表(或者使用函数:add_equivalent_list):

      是文本文件路径,内容形如((\t)隔开):
      0 零 〇
      1 一 壹 ①

      9 九 玖 ⑨

    • create_num=3 :返回最多3个增强文本
    • change_rate=0.3 : 文本改变率
    • seed : 随机种子
    from nlpcda import EquivalentChar
    
    test_str = '''今天是2020年3月8日11:40,天气晴朗,天气很不错。'''
    
    s = EquivalentChar(create_num=3, change_rate=0.3)
    # 添加等价字
    s.add_equivalent_list(['看', '瞅'])
    res=s.replace(test_str)
    print('等价字替换>>>>>>')
    for s in res:
        print(s)
    
    '''
    等价字替换>>>>>>
    今天是2020年3月8日11:40,天气晴朗,天气很不错。
    今天是二〇2〇年3月八日1①:4〇,天气晴朗,天气很不错。
    今天是二0贰零年3月捌日11:40,天气晴朗,天气很不错
    '''
    
    

    9.simbert

    来源:https://github.com/ZhuiyiTechnology/pretrained-models

    参考:https://github.com/ZhuiyiTechnology/simbert

    下载其中任意模型,解压到任意位置赋值给model_path变量:

    名称 训练数据大小 词表大小 模型大小 下载地址
    SimBERT Tiny 2200万相似句组 13685 26MB 百度网盘(1tp7)
    SimBERT Small 2200万相似句组 13685 49MB 百度网盘(nu67)
    SimBERT Base 2200万相似句组 13685 344MB 百度网盘(6xhq)

    参数:

    • config:model_path(上述下载的模型位置),设备(cpu/cuda…)、最大长度、随机种子
    • sent:需要增强的句子
    • create_num:构造的句子数量
    from nlpcda import Simbert
    config = {
            'model_path': '/xxxx/chinese_simbert_L-12_H-768_A-12',
            'device': 'cuda',
            'max_len': 32,
            'seed': 1
    }
    simbert = Simbert(config=config)
    sent = '把我的一个亿存银行安全吗'
    synonyms = simbert.replace(sent=sent, create_num=5)
    print(synonyms)
    '''
    [('我的一个亿,存银行,安全吗', 0.9871675372123718), 
    ('把一个亿存到银行里安全吗', 0.9352194666862488), 
    ('一个亿存银行安全吗', 0.9330801367759705), 
    ('一个亿的存款存银行安全吗', 0.92387855052948),
     ('我的一千万存到银行安不安全', 0.9014463424682617)]
    '''
    
    
    

    添加自定义词典

    用于使用之前,增加分词效果

    from nlpcda import Randomword
    from nlpcda import Similarword
    from nlpcda import Homophone
    from nlpcda import RandomDeleteChar
    from nlpcda import Ner
    from nlpcda import CharPositionExchange
    
    Randomword.add_word('小明')
    Randomword.add_words(['小明','小白','天地良心'])
    # Similarword,Homophone,RandomDeleteChar 同上
    
    
    展开全文
  • Mosaic数据增强

    千次阅读 2021-02-02 20:10:37
    在Yolo-V4的paper中,以及在还未发表paper的Yolo-V5中,都有一个很重要的技巧,就是Mosaic数据增强,这种数据增强方式简单来说就是把4张图片,通过随机缩放、随机裁减、随机排布的方式进行拼接。根据论文的说法,...

    原文链接:https://www.yuque.com/huoxiangshouxiangwanghuo/xg3nah/momd0o

    Mosaic数据增强

    在Yolo-V4的paper中,以及在还未发表paper的Yolo-V5中,都有一个很重要的技巧,就是Mosaic数据增强,这种数据增强方式简单来说就是把4张图片,通过随机缩放、随机裁减、随机排布的方式进行拼接。根据论文的说法,优点是丰富了检测物体的背景和小目标,并且在计算Batch Normalization的时候一次会计算四张图片的数据,使得mini-batch大小不需要很大,一个GPU就可以达到比较好的效果。

    在这里插入图片描述

    • 优点
      • 丰富数据集:随机使用4张图片,随机缩放,再随机分布进行拼接,大大丰富了检测数据集,特别是随机缩放增加了很多小目标,让网络的鲁棒性更好
      • 减少GPU:直接计算4张图片的数据,使得Mini-batch大小并不需要很大,一个GPU就可以达到比较好的效果
    • 缺点
      • 如果我们的数据集本身就有很多的小目标,那么Mosaic数据增强会导致本来较小的目标变得更小,导致模型的泛化能力变差
    展开全文
  • 数据增强方法

    2020-03-04 18:22:05
    文章目录数据增强方法一、单样本数据增强方法1.1 几何变换类1.2 颜色变换类二、多样本融合数据增强2.1 SMOTE2.2 SamplePairing2.3 mixup2.4 cutout2.5 cutmix2.6 Fmix2.7 roimix三、无监督数据增强方法3.1 GAN3.2 ...

    数据增强方法

    一、单样本数据增强方法

    1.1 几何变换类

    包括翻转,旋转,裁剪,变形,缩放等方式

    1.2 颜色变换类

    包括噪声、模糊、颜色变换、擦除、填充等方式

    二、多样本融合数据增强

    2.1 SMOTE

    SMOTE即Synthetic Minority Over-sampling Technique方法,它是通过人工合成新样本来处理样本不平衡问题,从而提升分类器性能。

    类不平衡现象是很常见的,它指的是数据集中各类别数量不近似相等。如果样本类别之间相差很大,会影响分类器的分类效果。假设小样本数据数量极少,如仅占总体的1%,则即使小样本被错误地全部识别为大样本,在经验风险最小化策略下的分类器识别准确率仍能达到99%,但由于没有学习到小样本的特征,实际分类效果就会很差。SMOTE方法是基于插值的方法,它可以为小样本类合成新的样本。

    主要流程为:
    第一步,定义好特征空间,将每个样本对应到特征空间中的某一点,根据样本不平衡比例确定好一个采样倍率N;

    第二步,对每一个小样本类样本(x,y),按欧氏距离找出K个最近邻样本,从中随机选取一个样本点,假设选择的近邻点为(xn,yn)。在特征空间中样本点与最近邻样本点的连线段上随机选取一点作为新样本点,满足以下公式:
    在这里插入图片描述
    第三步,重复以上的步骤,直到大、小样本数量平衡。

    2.2 SamplePairing

    SamplePairing方法的原理非常简单,从训练集中随机抽取两张图片分别经过基础数据增强操作(如随机翻转等)处理后经像素以取平均值的形式叠加合成一个新的样本,标签为原样本标签中的一种。这两张图片甚至不限制为同一类别,这种方法对于医学图像比较有效。

    在这里插入图片描述

    2.3 mixup

    λ∼Beta(α,α),α∈(0,∞)。
    在这里插入图片描述(xi,yi)和(xj,yj)是从训练数据中随机抽取的两个样本,且λ∈[0,1]。因此,mixup通过结合先验知识,即特征向量的线性插值应导致相关标签的线性插值,来扩展训练分布。
    作用为:将两个类别之间用线性过度,提高介于两个类别之间的泛化力,如图所示。
    在这里插入图片描述

    2.4 cutout

    随机的将样本中的部分区域cut掉,并且填充0像素值,分类的结果不变;

    2.5 cutmix

    就是将一部分区域cut掉但不填充0像素而是随机填充训练集中的其他数据的区域像素值,分类结果按一定的比例分配。
    在这里插入图片描述

    2.6 Fmix

    根据图像的高频和低频区域对图像进行二值化,然后利用该掩模对像素进行加权。
    在这里插入图片描述

    2.7 roimix

    用于水下检测,模拟重叠,遮挡,和模糊的目标。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    三、无监督数据增强方法

    无监督的数据增强方法包括两类:

    (1) 通过模型学习数据的分布,随机生成与训练数据集分布一致的图片,代表方法GAN[4]。

    (2) 通过模型,学习出适合当前任务的数据增强方法,代表方法AutoAugment[5]。

    3.1 GAN

    (1) G是一个生成图片的网络,它接收随机的噪声z,通过噪声生成图片,记做G(z) 。

    (2) D是一个判别网络,判别一张图片是不是“真实的”,即是真实的图片,还是由G生成的图片。

    在这里插入图片描述

    3.2 Autoaugmentation

    AutoAugment是Google提出的自动选择最优数据增强方案的研究,这是无监督数据增强的重要研究方向。它的基本思路是使用增强学习从数据本身寻找最佳图像变换策略,对于不同的任务学习不同的增强方法,流程如下:
    (1) 准备16个常用的数据增强操作。
    (2) 从16个中选择5个操作,随机产生使用该操作的概率和相应的幅度,将其称为一个sub-policy,一共产生5个sub-polices。
    (3) 对训练过程中每一个batch的图片,随机采用5个sub-polices操作中的一种。
    (4) 通过模型在验证集上的泛化能力来反馈,使用的优化方法是增强学习方法。
    (5) 经过80~100个epoch后网络开始学习到有效的sub-policies。
    (6) 之后串接这5个sub-policies,然后再进行最后的训练。总的来说,就是学习已有数据增强的组合策略,对于门牌数字识别等任务,研究表明剪切和平移等几何变换能够获得最佳效果。

    参考连接:https://zhuanlan.zhihu.com/p/61759947

    展开全文
  • 对PASCAL VOC 数据集进行数据增强

    万次阅读 2020-12-29 18:27:35
    对PASCAL VOC 数据集进行数据增强 1.GitHub仓库位置 目的:对VOC数据集的对象检测的数据进行数据增强。如果能帮到您请给本人一颗⭐,拜托了!!!!! https://github.com/Mygithub-Yao/tools-VOC 2.项目目录解析 ...
  • 数据预处理与数据增强

    千次阅读 2019-06-10 11:26:00
    数据预处理与数据增强 数据增强技术被证明了有利于通用的尤其是深度的机器学习架构的训练,无论是加速收敛过程还是作为一个正则项,这也避免了过拟合并增强了模型泛化能力[15]。 数据增强一般包括在数据空间或...
  • 数据增强策略

    千次阅读 2019-03-20 20:15:28
    【技术综述】 一文道尽深度学习中的数据增强方法(上) 今天带来一次有关于深度学习中的数据增强方法的分享。 00什么是数据增强 在深度学习项目中,寻找数据花费了相当多的时间。但在很多实际的项目中,我们...
  • 数据增强与数据读取 数据增强 为什么要进行数据增强 深度学习模型的参数很多,模型复杂度很高,如果此时数据集数量不够导致数据集中数据的复杂度没有涵盖所有特征空间,那么模型就会学习到这些数据集的一些独有的...
  • 图片数据集批量数据增强

    千次阅读 2020-09-29 15:57:03
    图片数据集批量数据增强(九种图像处理方法,增加到10倍)数据增强代码参考批量数据增强代码代码文件说明 数据增强代码 ck+数据集直接用于表情识别数量较少,去掉contempt大概在900张左右(个人处理,不同处理方法会...
  • 数据增强利器–Augmentor 数据增强库Augmentor使用教程 Augmentor_github
  • Dataset之图片数据增强:基于TF实现图片数据增强(原始的训练图片reshaped_image→数据增强→distorted_image(训练时直接使用)) 目录 数据增强步骤 数据增强实现代码 数据增强步骤 1、对reshaped_...
  • tensorflow数据增强

    千次阅读 2018-04-11 16:40:42
    相信大家都听说过数据增强(Data Augmentation),这是在做神经网络时非常极其重要的trick, 因为数据是宝贵的,稀有的,通过数据增强我们能让我们的数据量迅速增大,并且能使训练的模型具有一定抗噪能力。这篇文章...
  • 数据增强调研

    2020-11-23 11:13:21
    文章目录数据增强调研报告一、常用的增强技术(一)几何变换(二)颜色空间转换二、一般增强技术(一)内核过滤器(Kernel filters)(二)混合图像(mixing image)[5](三)、高级增强技术一、特征空间增强(Feature...
  • Albumentations数据增强方法

    万次阅读 多人点赞 2019-09-13 08:14:21
    Albumentations数据增强方法常用数据增强方法Blur 模糊VerticalFlip 水平翻转HorizontalFlip 垂直翻转Flip 翻转Normalize 归一化Transpose 转置RandomCrop 随机裁剪功能快捷键合理的创建标题,有助于目录的生成如何...
  • 对训练数据集进行数据增强代码

    千次阅读 多人点赞 2019-07-07 21:53:01
    对训练数据集进行数据增强代码 原代码如下所示: ### 本代码共采用了四种数据增强,如采用其他数据增强方式,可以参考本代码,随意替换。 imageDir 为原数据集的存放位置 saveDir 为数据增强后数据的存放位置 ### ...
  • 图像增强和数据增强

    千次阅读 2019-05-08 15:01:02
    Color Jittering:对颜色的数据增强:图像亮度、饱和度、对比度变化(此处对色彩抖动的理解不知是否得当); PCA Jittering:首先按照RGB三个颜色通道计算均值和标准差,再在整个训练集上计算协方差矩...
  • 数据增强——Central-surround

    千次阅读 2018-07-15 09:57:15
    数据增强
  • 图像数据增强

    千次阅读 2019-08-20 10:50:57
    图像数据增强 最近因为要用到的数据很少,所以想到用数据增强的方法,大家可以参考博客 link,增强的方法没变,主要是在后面图片生成后放到新的文件夹做了一些改进 遇到的第一个问题是,在其他文件下生成新的相同...
  • Pytorch实现数据集的加载和数据增强

    万次阅读 多人点赞 2019-03-11 22:01:40
    在这里介绍几种常用的的数据增强方法: 标准数据增强 以CIFAR10为例: 论文中如下是对数据集的标准增强操作。对于训练集,padding=4为上下左右均填充 4 个 pixel,由32×32的尺寸变为40×40,之后进行任意的裁剪...
  • 机器学习数据增强

    2020-05-06 10:40:28
    机器学习数据增强 数据增强 比较好的神经网络需要大量的参数,许许多多的神经网路的参数都是数以百万计,而使得这些参数可以正确工作则需要大量的数据进行训练,而实际情况中数据并没有我们想象中的那么多 数据增强...
  • tensorflow进行数据增强

    2020-11-17 15:32:57
    tensorflow进行数据增强 我们在进行训练的时候,如果输入的样本有限,会导致网络陷入过拟合。 在tensorflow里有专门针对这个的解决方法,tf.ImageDataGenerator,它的作用是进行数据增强。在给定数据的基础上进行 ...
  • Yolov4 mosaic 数据增强

    万次阅读 2020-04-27 17:59:13
    mosaic 数据增强 Yolov4的mosaic 数据增强是参考CutMix数据增强,理论上类似,CutMix的理论可以参考这篇CutMix,但是mosaic利用了四张图片,据论文其优点是丰富检测物体的背景,且在BN计算的时候一下子会计算四张...
  • 数据增强 总结

    2019-02-18 16:04:13
    在图像的深度学习中,有的时候训练集不够多,或者某一类数据较少,或者为了防止过拟合,让模型更加鲁棒性,为了丰富图像训练集,更好的提取图像特征,泛化模型(防止模型过拟合),一般都会对数据图像进行数据增强,...
  • 数据增强总结

    千次阅读 2019-06-05 11:13:10
    数据增强方式: (1)传统数据增强,包括crop,translate,zoom,hue等 (2)GAN(CycleGAN)。生成的图片和真实图片差距较大,损失函数定义为分类偏差。 (3)插值式,SMOTE,MIXUP等算法生成新图片 (4)迁移...
  • 数据增强与数据扩充

    千次阅读 2019-02-26 15:06:02
    同义词替换(这种方法比较大的局限性在于同义词在NLP中通常具有比较相近的词向量,因此对于模型来说,并没有起到比较好的对数据增强的作用) 反向翻译(这是机器翻译中一种非常常用的增强数...
  • Keras数据增强

    千次阅读 2019-03-27 21:51:25
    数据增强生成器: train_datagen = ImageDataGenerator(rescale=1. / 255, #归一化 rotation_range=10, #旋转角度 width_shift_range=0....
  • 数据增强之mixup算法详解

    万次阅读 2019-09-28 19:39:19
    (一)、什么是数据增强? (1). 数据增强主要指在计算机视觉领域中对图像进行数据增强,从而弥补训练图像数据集不足,达到对训练数据扩充的目的。 (2). 数据增强是一种数据扩充方法,可分为同类增强(如:翻转、旋转、...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 36,910
精华内容 14,764
关键字:

数据增强