精华内容
下载资源
问答
  • 介绍欠拟合与过拟合知识,反向传播,网络调基础方法
  • 魏秀:解析卷积神经网络。魏秀:解析卷积神经网络。魏秀:解析卷积神经网络。魏秀:解析卷积神经网络。魏秀:解析卷积神经网络
  • 神经网络调

    2018-11-06 13:37:51
    神经网络的一些调方法小结 1、网格搜索法 网格搜索就是将多个参数进行笛卡尔乘积后逐个试验,很费时间。 sklearn库有GridSearchCV函数,结合了交叉验证,我还没在神经网络上应用过。 2、逐个调 用枚举的方法逐个...

    神经网络的一些调参方法小结
    1、网格搜索法
    网格搜索就是将多个参数进行笛卡尔乘积后逐个试验,很费时间。
    sklearn库有GridSearchCV函数,结合了交叉验证,我还没在神经网络上应用过。

    2、逐个调参
    用枚举的方法逐个参数调优,一个参数取最佳值后固定住再进行下一个参数调优,比网格搜索快一些。不过可能有一些参数各自不是最佳值,但组合起来有更好的效果,这种方法就遗漏了这种情况。

    以下方法摘自机器之心
    https://www.jiqizhixin.com/articles/2018-10-31-24

    3、随机搜索法
    随机搜索首先为每类超参数定义一个边缘分布,通常取均匀分布,然后在这些参数上采样进行搜索。
    随机搜索虽然有随机因素导致搜索结果可能特别差,但是也可能效果特别好。总体来说效率比网格搜索更高,但是不保证一定能找到比较好的超参数。
    论文:Random Search for Hyper-Parameter Optimization

    4、贝叶斯优化
    (之后整理)

    展开全文
  • 神经网络调技巧

    万次阅读 2018-02-19 17:22:18
    对于神经网络的调试,如何找到一组合适的超参数呢,下面分享一些神经网络调的方法与技巧。 在使用神经网络时有许多参数需要调整,比如学习速率、Momentum(动量梯度下降法)的参数beta,Adam优化算法的参数,beta...

        对于神经网络的调试,如何找到一组合适的超参数呢,下面分享一些神经网络调参的方法与技巧。

    在使用神经网络时有许多参数需要调整,比如学习速率、Momentum(动量梯度下降法)的参数beta,Adam优化算法的参数,beta1,beta2,神经网络层数,不同层中隐藏单元数量,学习率衰减等。这些参数的调整也是有优先级顺序的,其中的一些应该优先调整,而另一些可能完全不用调整。

       首先应该调整的是学习率alpha。在尝试多个不同的超参数时,主要有grid Search和random Search两种方法可以选择(sklearn中有GridSearchCV和RandomSearchCV可以使用)。gird Search是网格搜索,对于要调整的超参数,我们可以给定一组候选值,网格搜索会对这些候选值依次进行组合,最后选出最优的那种参数组合。random Search是随机搜索超参数,对于要调整的超参数,给定参数范围,在其中随机的选取若干个超参数进行尝试,最终选出最优的超参数组合。grid Search的有点是可以让你清楚的看到模型预测的效果是如何随着参数的变化而变化的,但是在相同的迭代次数内,random Search通常可以更快的找到合适的超参数。在深度学习中,更推荐适应random Search去搜索超参数。使用random Search的关键是要为超参数选择一个合适的范围,对于学习速率来说,通常其范围可能在0.0001到1之间。如果直接在这个范围内搜索的话,那么有90%以上的值都会落在0.1-1这个区间内。这显然是不合理的,使用random Search应该使参数均匀的落在各个区间内,对于上例来说,应该使参数落在0.0001-0.001、0.001-0.1、0.1-1之间的概率相同。所以这里应该对参数做一个取对数的变换,设要搜索的数值为r,参数为a,使r=lg(a),因为a的范围是0.0001-1,即10^-3-10^0,所以r的取值范围为[-3,0],这样变换后就可以保证在要搜索的各个参数区间内取到值的概率都是相同的。

        其次需要调整的参数为mini-batch的大小,隐藏单元的数量,以及Momentum优化算法的参数beta。对于beta的搜索,其取值分为可以设定为0.9-0.999,这时对其做变换,先用1-beta值,这时取值范围变为0.001-0.1,在做对数变换,即可。对于超参数的搜索,另一个惯例是采用从粗糙到精细的策略。比如对于超参数beta,现在0.9-0.999上进行10次搜索,可能发现参数在0.995附近效果比较好,那么下一步可以再在0.99-0.999上进行10次参数搜索,或许可以找到效果更好的超参数。

        再次需要调整的参数为神经网络层数,学习率衰减等,而其他的一些优化算法如Adam中的beta1,beta2等参数一般不用调整,使用默认值就可以。

    展开全文
  • *南京大学计算机系机器学习与数据挖掘所(LAMDA)在读博士魏秀开放了一份较系统完整的 CNN 入门材料《解析卷积神经网络——深度学习实践手册》。这是一本面向中文读者轻量级、偏实用的深度学习工具书,内容侧重...

    解析卷积神经网络——基础理论篇

    *南京大学计算机系机器学习与数据挖掘所(LAMDA)在读博士魏秀参开放了一份较系统完整的 CNN 入门材料《解析卷积神经网络——深度学习实践手册》。这是一本面向中文读者轻量级、偏实用的深度学习工具书,内容侧重深度卷积神经网络的基础知识和实践应用。本书的受众为对卷积神经网络和深度学习感兴趣的入门者,以及没有机器学习背景但希望能快速掌握该方面知识并将其应用于实际问题的各行从业者。
    全书共 14 章,除“绪论”外可分为2 个篇章:第一篇“基础理论篇”包括第1~4章,介绍卷积神经网络的基础知识、基本部件、经典结构和模型压缩等基础理论内容;第二篇“实践应用篇”包括第5~14章,介绍深度卷积神经网络自数据准备始,到模型参数初始化、不同网络部件的选择、网络配置、网络模型训练、不平衡数据处理,最终直到模型集成等实践应用技巧和经验。 本系列文章为本人读书学习的摘录以及思考,希望和志同者一起探讨学习(0.0)。*

    书籍链接:

    http://lamda.nju.edu.cn/weixs/book/CNN_book.pdf
    https://pan.baidu.com/s/1pLcaFij
    https://drive.google.com/file/d/1sa1aSzYrNtGzXbegL02JtbYw3z3ZE13m/view?usp=sharing

    目录

    基础理论篇
    解析卷积神经网络 目录和绪论
    第一章 卷机神经网络基础知识
    第二章 卷机神经网络基本部件
    第三章 卷积神经网络经典结构

    实践应用篇

    绪论

    (我觉得是没有用的,看看就好。)

    引言

    阿尔法狗 4 : 1 大胜人类围棋的顶级高手李世石,使其迅速成为全世界热议的话题,也让人们牢牢记住了一个原本陌生的专有名词——“深度学习”(deep learning)。

    什么是深度学习?

    比起深度学习,“机器学习”一词应更耳熟能详。
    机器学习(machine learning )是人工智能的一个分支,它致力于研究如何通过计算的手段,利用经验(experience)来改善计算机系统自身的性能。通过从经验中获取知识,机器学习算法摒弃了人为向机器输入知识的操作,转而凭借算法自身来学到所需所有知识。对于传统机器学习算法而言,“经验”往往对应以“特征”(feature)形式存储的“数据”(data),传统机器学习算法所做的事情便是依靠这些数据产生“模型”(model)。
    但是“特征”为何?如何设计特征更有助于算法学到优质模型?……一开始人们通过“特征工程”(feature engineering)形式的工程试错性方式来得到数据特征。可是随着机器学习任务的复杂多变,人们逐渐发现针对具体任务生成特定特征不仅费时费力,同时还特别敏感,很难将其应用于另一任务。此外对于一些任务,人类根本不知道该如何用特征有效表示数据。例如,人们知道一辆车的样子,但完全不知道怎样设计的像素值配合起来才能让机器“看懂”这是一辆车。这种情况就会导致若特征“造”的不好,最终学习任务的性能也会受到极大程度的制约,可以说,特征工程决定了最终任务性能的“天花板”。聪明而倔强的人类并没有屈服:既然模型学习的任务可以通过机器自动完成,那么特征学习这个任务自然完全可以通过机器自己实现。于是,人们尝试将特征学习这一过程也用机器自动的“学”出来,这便是“表示学习”(representation learning)。
    表示学习的发展大幅提高了很多人工智能应用场景下任务的最终性能,同时由于其自适应性使得人工智能系统可以很快移植到新的任务上去。“深度学习”便是表示学习中的一个经典代表。深度学习以数据的原始形态(raw data)作为算法输入,经过算法层层抽象将原始数据逐层抽象为自身任务所需的最终特征表示,最后以特征到任务目标的映射(mapping)作为结束,从原始数据到最终任务目标,“一气呵成”并无夹杂任何人为操作。如图所示,相比传统机器学习算法仅学得模型这一单一“任务模块”而言,深度学习除了模型学习,还有特征学习、特征抽象等任务模块的参与,借助多层任务模块完成最终学习任务,故称其为“深度”学习。
    这里写图片描述
    深度学习中的一类代表算法是神经网络算法,包括深度置信网络(deep belief network)、递归神经网络(recurrent neural network)和卷积神经网络(convolution neural network)等等。特别是卷积神经网络,目前在计算机视觉、自然语言处理、医学图像处理等领域“一枝独秀”,它也是本书将侧重介绍的一类深度学习算法。有关人工智能、机器学习、表示学习和深度学习等概念间的关系可由下图中的韦恩图表示。
    这里写图片描述

    深度学习的前世今生

    虽说阿尔法狗一鸣惊人,但它背后的深度学习却是由来已久。相对今日之繁荣,它一路而来的发展不能说一帆风顺,甚至有些跌宕起伏。追根溯源,深度学习的思维范式实际上是人工神经网络(artificial neural networks),从古溯今,该类算法的发展经历了三次高潮和两次衰落。
    第一次高潮是二十世纪四十至六十年代当时广为人知的控制论(cybernetics)。当时的控制论是受神经科学启发的一类简单的线性模型,其研究内容是给定一组输入信号 x 1 , x 2 , … , x n 去拟合一个输出信号 y,所学模型便是最简单的线性加权:f (x, ω) = x 1 ω 1 + · · · + x n ω n 。显然,如此简单的线性模型令其应用领域极为受限,最为著名的是:它不能处理“异或”问题(XOR function)。因此,人工智能之父 Marvin Minsky曾在当时撰文批判神经网络存在的两点关键问题:首先,单层神经网络无法处理“异或”问题;其次,当时的计算机缺乏足够的计算能力满足大型神经网络长时间的运行需求。Minsky对神经网络的批判将其研究在60年代末带入“寒冬”,人工智能产生了很多不同的研究方向,可唯独神经网络好像逐渐被人淡忘。
    直到80年代,David Rumelhar和Geoffery E.Hinton 等人提出了反向传播(back propagation)算法,解决了两层神经网络所需要的复杂计算量问题,同时克服了Minsky说过神经网络无法解决异或问题,自此神经网络“重获生机”,迎来了第二次高潮,即二十世纪八十至九十年代的连接主义(connectionism)。不过好景不长,受限于当时数据获取的瓶颈,神经网络只能在中小规模数据上训练,因此过拟合(overfitting)极大困扰着神经网络型算法。同时,神经网络算法的不可解释性令它俨然成为一个“黑盒”,训练模型好比撞运气般,有人无奈的讽刺说它根本不是“科学”(science)而是一种“艺术”(art)。另外加上当
    时硬件性能不足而带来的巨大计算代价使人们对神经网络望而却步,相反,如支持向量机(support vector machine)等数学优美且可解释性强的机器学习算法逐渐变成历史舞台上的“主角”。短短十年,神经网络再次跌入“谷底”。甚至当时在一段时间内只要和神经网络沾边的学术论文几乎都会收到类似这样的评审意见:“The biggest issue with this paper is that it relies on neural networks(这篇论文最大的问题,就是它使用了神经网络。)”
    但可贵的是,尽管当时许多人抛弃神经网络转行做了其他方向,但如Geoffery E.Hinton和 Yann LeCun等人仍“笔耕不辍”在神经网络领域默默耕耘,可谓“卧薪尝胆”。在随后的30 年,随着软件算法和硬件性能的不断优化,直到2006年,Geoffery E.Hinton等在Science上发表文章提出:一种称为“深度置信网络”的神经网络模型可通过逐层预训练(greedy layer-wise pretraining)的方式有效完成模型训练过程。很快,更多的实验结果证实了这一发现,更重要的是除了证明神经网络训练的可行性外,实验结果还表明神经网络模型的预测能力相比其他传统机器学习算法可谓“鹤立鸡群”。Hinton发表在Science上的这篇文章无疑为神经网络类算法带来了一片曙光。接着,被冠以“深度学习”名称的神经网络终于可以大展拳脚,首先于2011年在语音识别领域大放异彩,其后便是在2012年计算机视觉“圣杯”ImageNet竞赛上强势夺冠,再来于2013年被MIT科技纵览(MIT Technology Review)评为年度十大科技突破之首……这就是第三次高潮,也就是大家都比较熟悉的深度学习时代。其实,深度学习中的“deep”一部分是为了强调当下人们已经可以训练和掌握相比之前神经网络层数多得多的网络模型。不过也有人说深度学习无非是“新瓶装旧酒”,而笔者更愿意将其比作“鸟枪换炮”。正因为有效数据的急剧扩增、高性能计算硬件的实现以及训练方法的大幅完善,三者作用最终促成了神经网络的第三次“复兴”。
    细细想来,其实第三次神经网络的鼎盛与前两次大有不同,这次深度学习的火热不仅体现在学术研究领域的繁荣,它更引发相关技术产生了巨大的现实影响力和商业价值——人工智能不再是一张“空头支票”。尽管目前阶段的人工智能还没有达到科幻作品中的强人工智能水平,但当下的系统质量和性能已经足以让机器在特定任务中完胜人类,也足以产生巨大的产业生产力。深度学习作为当前人工智能热潮的技术核心,哪怕研究高潮过段时间会有所回落,但仍不会像前两次衰落一样被人彻底遗忘。它的伟大意义在于,它就像一个人工智能时代人类不可或缺的工具,真正让研究者或工程师摆脱了复杂的特征工程,从而可以专注于解决更加宏观的关键问题;它又像一门人工智能时代人类必需的语言,掌握了它就可以用之与机器“交流”完成之前无法企及的现实智能任务。因此许多著名的大型科技公司,如微软、百度、腾讯和阿里巴巴等纷纷第一时间成立了自己聚焦深度学习的人工智能研究院或研究机构。相信随着人工智能大产业的发展,慢慢的,人类重复性的工作可被机器替代,从而提升社会运转效率,把人们从枯燥的劳动中解放出来参与到其他更富创新的活动中去。
    有人说“人工智能是不懂美的”,即便阿尔法狗在围棋上赢了人类,但它根本无法体会“落子知心路”给人带来的微妙感受。不过转念一想,如果真有这样一位可随时与你“手谈”的朋友,怎能不算是件乐事?我们应该庆幸可以目睹并且亲身经历、甚至参与这次人工智能的革命浪潮,相信今后一定还会有更多像阿尔法狗一样的奇迹发生。此时,我们登高望远,极目远眺;此时,我们指点江山,挥斥方裘。正是此刻站在浪潮之巅,因此我们兴奋不已、彻夜难眠。

    展开全文
  • 神经网络炼丹术:神经网络调

    千次阅读 2020-04-04 13:56:00
    被删除的神经元不再进行信号的传递 测试时,虽然会传递所有的神经元信号,但是对于各个神经元的输出,要乘上训练时的删除比例后再输出 六丶数据增强· 归一化 图像翻转:翻转,拉伸,裁剪,变形 色彩变换:对比度,...

    自:
    《TensorFlow深度学习》
    《深度学习入门》
    《深度学习实战》

    一丶梯度优化算法

    1. W W W 表示需要更新的参数

    2. ∂ L ∂ W \frac{\partial L}{\partial W} WL 表示损失函数关于W的梯度

    3. η \eta η 表示学习率

    SDG

    SDG的缺点会陷入局部最小和鞍点
    W ← W − η ∂ L ∂ W W \leftarrow W -\eta\frac{\partial L}{\partial W} WWηWL
    在这里插入图片描述

    momentum

    momentum因为下降的时候有速度,然后不会停止,很有可能走出困境
    v ← α v − η ∂ L ∂ W W ← W + v v \leftarrow \alpha v -\eta\frac{\partial L}{\partial W} \\W \leftarrow W+v vαvηWLWW+v
    在这里插入图片描述
    受学习率影响很大,每个维度学习率一样,是全局设置,如果针对稀疏数据,很难学习,所以急需个性化设置每个维度的学习率,也就有了下面的AdaGrad

    AdaGrad

    调整学习率

    h ← h + ∂ L ∂ W 2 W ← W − η 1 h ∂ L ∂ W h \leftarrow h +\frac{\partial L}{\partial W} ^2 \\ \\ W \leftarrow W-\eta \frac{1}{\sqrt{h}}\frac{\partial L}{\partial W} hh+WL2WWηh 1WL

    1. 以往梯度的平方和做分母,所以前期分母小,前期学习率就大,加速训练,后期分母大小,学习率就会变小;
    2. 且每个有不同的学习率

    但是假如前期学习率比较大,初始梯度爆炸,那么往后的学习率很小,训练提前结束,需要很多次很多迭代才行,就像下面
    在这里插入图片描述
    需要加上小的值 防止初始值为0
    解决:变种RMSProp , 分母由平方和变成加权平均,解决提前结束

    Adam

    Mommentum + Adagrad + 校验

    学习率自适应

    直接设置学习率
    在这里插入图片描述

    使用方式

    1. 稀疏数据:使用学习率自适应,比如广告预估业务, 特征维度几十亿维,到几百维有值
    2. SGD慢,但最终要比较好,需要自我调整learning rate ,其他的自适应比较懒不需要自己手动调整
    3. 较深较复杂且需要快速收敛,推荐adam

    二丶激活函数

    在这里插入图片描述

    sigmod

    1. 输入太小或太大无梯度,因为接近0了
    2. exp复杂计算

    3. 梯度容易消失y(1-y),多层梯度很小
    4. 输出均值为0.5

    tanh

    1. 快,计算量小
    2. 输入太小或太大无梯度
    3. 输出均值为0

    ReLu

    1. 快,计算量小,
    2. 梯度不会太小

    3. 输出均值非0
    4 . 非常大的梯度流过神经元就不会有激活现象

    leaky ReLu : ReLu改善
    x小于0时乘以系数,就会更小,不会一直为0

    ELU

    1. 均值接近0
    2. 小于0时exp难算

    使用方式

    1. 小心设置ReLu学习率
    2. 不要使用sigmod
    3. 推荐使用 leaky ReLu,ELU
    4. 试试 tanh

    三丶网络初始化

    权重初始值

    权值衰减:通过减小权重参数的值来抑制过拟合的发生
    是像0.01 * np.random.randn(10, 100)这样,使用由高斯分布生成的值乘以0.01后得到的值(标准差为0.01的高斯分布)

    那全部为0呢?
    比如,在2层神经网络中,假设第1层和第2层的权重为0。这样一来,正向传播时,因为输入层的权重为0,所以第2层的神经元全部会被传递相同的值。第2层的神经元中全部输入相同的值,这意味着反向传播时第2层的权重全部都会进行相同的更新(回忆一下“乘法节点的反向传播好的参数:激活值分布分散就好一些,集中就不好的内容)。因此,权重被更新为相同的值,并拥有了对称的值(重复的值)。这使得神经网络拥有许多不同的权重的意义丧失了。为了防止“权重均一化”(严格地讲,是为了瓦解权重的对称结构),必须随机生成初始值

    隐藏层激活值的分布

    在这里插入图片描述
    这里假设神经网络有5层,每层有100个神经元。然后,用高斯分布随机生成1000个数据作为输入数据,并把它们传给5层神经网络。激活函数使用sigmoid函数

    1. 第一幅图:各层的激活值呈偏向0和1的分布。这里使用的sigmoid函数是S型函数,随着输出不断地靠近0(或者靠近1),它的导数的值逐渐接近0。因此,偏向0和1的数据分布会造成反向传播中梯度的值不断变小,最后消失。这个问题称为梯度消失(gradient vanishing)。层次加深的深度学习中,梯度消失的问题可能会更加严重。
    2. 第二幅图:使用标准差为0.01的高斯分布时,各层的激活值的分布。这次呈集中在0.5附近的分布。因为不像刚才的例子那样偏向0和1,所以不会发生梯度消失的问题。但是,激活值的分布有所偏向,说明在表现力上会有很大问题。为什么这么说呢?因为如果有多个神经元都输出几乎相同的值,那它们就没有存在的意义了。比如,如果100个神经元都输出几乎相同的值,那么也可以由1个神经元来表达基本相同的事情。因此,激活值在分布上有所偏向会出现“表现力受限”的问题
    3. 第三幅图:试使用Xavier Glorot等人的论文[9]中推荐的权重初始值(俗称“Xavier初始值”)Xavier的论文中,为了使各层的激活值呈现出具有相同广度的分布,推导了合适的权重尺度。推导出的结论是,如果前一层的节点数为 n n n,则初始值使用标准差为 1 n \frac {1}{\sqrt n} n 1的分布A
      在这里插入图片描述

    Xavier初始值是以激活函数是线性函数为前提而推导出来的。因为sigmoid函数和tanh函数左右对称,且中央附近可以视作线性函数,所以适合使用Xavier初始值
    在这里插入图片描述
    但当激活函数使用ReLU时,一般推荐使用ReLU专用的初始值,也就是Kaiming He等人推荐的初始值,也称为“He初始值”,当前一层的节点数为n时,He初始值使用标准差为 2 n \frac {2}{\sqrt n} n 2的高斯分布。当Xavier初始值是 1 n \frac {1}{\sqrt n} n 1时,(直观上)可以解释为,因为ReLU的负值区域的值为0,为了使它更有广度,所以需要2倍的系数。

    在这里插入图片描述

    四丶批归一化 Batch Normalization

    每层更改了激活函数,怎么办?那么适合于某一种的就不适用了,于是我们“强制性”地调整激活值的分布会怎样呢

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    上图得出使用Batch Norm后,学习进行得更快了
    下面是是权重初始值的标准差为各种不同的值时的学习过程图。我们发现,几乎所有的情况下都是使用Batch Norm时学习进行得更快。
    在这里插入图片描述

    五丶拟合问题

    在这里插入图片描述
    如图 (a)所示,这种现象叫做欠拟合。但如果用较复杂的函数模型去学习时,有可能学习到的函数会过度地“拟合”训练集样本,从而导致在测试集上表现不佳,如图 ©所示,这种现象叫做过拟合。只有学习的模型和真实模型容量大致匹配时,模型才能具有较好地泛化能力,如图 (b)所示。

    欠拟合

    当我们发现当前的模型在训练集上误差一直维持较高的状态,很难优化减少,同时在测试集上也表现不佳时,我们可以考虑是否出现了欠拟合的现象。这个时候可以通过增加神经网络的层数、增大中间维度的大小等手段,比较好的解决欠拟合的问题。但是由于现代深度神经网络模型可以很轻易达到较深的层数,用来学习的模型的容量一般来说是足够的,在实际使用过程中,更多的是出现过拟合现象。

    过拟合:正则化技术

    发生过拟合的原因,主要有以下两个。
    • 模型拥有大量参数、表现力强。
    • 训练数据少

    权重衰弱

    前面所说的网络初始化的权重衰弱是防止过拟合的一种方法

    调节层数与参数规模

    网络的层数和参数量是网络容量很重要的参考指标,通过减少网络的层数,并减少每层中网络参数量的规模,可以有效降低网络的容量。

    在这里插入图片描述
    其中红色矩形块和蓝色圆形块分别代表了训练集上的 2 类样本,保持其它超参数一致,仅调整网络的层数,训练获得样本上的分类效果,如图中所示,可以看到,随着网络层数的加深,学习到的模型决策边界越来越逼近训练样本,出现了过拟合现象。对于此任务,2 层的神经网络即可获得不错的泛化能力,更深层数的网络并没有提升性能,反而出现过拟合现象,泛化能力变差,同时计算代价也更高

    Dropout

    权值衰减是一直以来经常被使用的一种抑制过拟合的方法。该方法可以简单地实现,在某种程度上能够抑制过拟合。但是,如果网络的模型变得很复杂,只用权值衰减就难以应对了。在这种情况下,我们经常会使用Dropout 方法

    Dropout是一种在学习的过程中随机删除神经元的方法

    训练时,每传递一次数据,随机选出隐藏层的神经元,然后将其删除。被删除的神经元不再进行信号的传递
    测试时,虽然会传递所有的神经元信号,但是对于各个神经元的输出,要乘上训练时的删除比例后再输出
    在这里插入图片描述

    在这里插入图片描述

    六丶数据增强·

    1. 归一化
    2. 图像翻转:翻转,拉伸,裁剪,变形
    3. 色彩变换:对比度,亮度
    4. 多尺度

    七丶可视化检查中间状态

    在这里插入图片描述

    1. . 说明没有学习到,有可能学习率比价大
    2. 过拟合
    3. 严重过拟合
    4. 平缓,速度不够快,调整学习率
    5. 初始化没有好
    6. 梯度加反了,找最大的
    展开全文
  • 是种无奈 理论认识很深的时候 参数就是一个公式或几个公式 应该把精力放在认识水平的提高上 超参数和参数区分 超参数:如学习率α、网络层数、每层隐藏单元数、学习率衰减值、mini-batch等需要人工选取的参数。...
  • CNN_book_魏秀,解析深度学习——卷积神经网络原理与视觉实践,去水印,相当不错的卷积神经网络入门资料,分享给大家就一起学习和研究。
  • 神经网络调总结

    千次阅读 2019-08-17 12:58:30
    做卷积神经网路方面的研究。大抵是: 1、复现别人的网络,得不到相同的表现。 2、自己的网络调,结果调不上去。 所以有一些调的tricks,在这里学习记录一下,然后加上一些自己的理解...
  • Bp神经网络的调(未完,待续)

    千次阅读 2019-08-13 19:45:52
    Bp神经网络的调(上)  各位数据游侠,炼丹师,由于最近项目上的数据迟迟未到,闲的无聊,so 盘一盘神经网络。虽说之前各种大大小小的网络都使用过,然而对其网络的改进工作却迟迟没有落实,所以。。。不过经过几...
  • 神经网络——调

    2019-04-24 14:26:07
    1、更多的优化算法 2、激活函数 3、网络初始化 4、批归一化 5、数据增强 1、更多的优化算法: 回顾: 1、随机梯度下降 局部极值 Saddle point问题 2、动量梯度下降 这两个方法的问题: ... ...
  • 【keras】神经网络调

    千次阅读 2019-02-19 17:30:10
    神经网络中需要调的参数很多,如何正确地调至关重要,需要调节的参数大概有如下几个: 神经网络的层数 每层神经元的个数 如何初始化Weights和biases loss函数选择哪一个 选择何种Regularization?L1,L2 ...
  • Tensorflow_25_可视化梯度下降_公式调__(神经网络_教学教程tutorial)
  • 神经网络的调十分重要,很多人都说深度学习是一个黑箱模型,有人戏称深度学习为“炼丹”。但是深度学习归根结底是一个数学优化的过程,超参数对于模型的效果影响很大。网上文章也有很多,比如梯度爆炸应该怎么办,...
  • 写在前面:最近沉迷网络调无法自拔,我就简单列举一下我遇见的情况以及对应措施记录一下,之后也会缓慢更新 1、学习率对网络收敛速度的影响 我的网络结构相对简单,所以本次也是基于网络没有那么deep的情况记录的 ...
  • 神经网络学习:如何调

    万次阅读 多人点赞 2017-07-18 09:50:02
    神经网络中需要调的参数很多,如何正确地调至关重要,需要调节的参数大概有如下几个: 神经网络的层数每层神经元的个数如何初始化Weights和biasesloss函数选择哪一个选择何种Regularization?L1,L2...
  • 训练神经网络一般调步骤

    万次阅读 多人点赞 2018-11-20 09:23:36
    因此正确有序地调很重要,需要调节的参数大概有如下几个[1]: 神经网络的层数 每层神经元的个数 如何初始化Weights和biases loss函数选择哪一个 选择何种Regularization?L1,L2 Regularization parameter lambda ...
  • 神经网络调方法

    千次阅读 2019-04-22 16:38:52
    1、参考内容1: ...神经网络中需要调的参数很多,如何正确地调至关重要,需要调节的参数大概有如下几个: 神经网络的层数 每层神经元的个数 如何初始化Weights和biases loss函数选择哪一个 选择何种Reg...
  • 深度神经网络调之损失函数

    千次阅读 2018-03-06 15:34:35
    TED有这样一个演讲How to learn from mistakes,演讲者主要分享了一些学习的体会,其中最主要的就是如何从自己犯过的错误中学习。...我们同样希望自己搭建出来的神经网络能够从它的错误中学得最快,当然它们的...
  • 该竞赛提供了基线系统,针对基线系统,在调过程中总结了如下心得: 心得 尝试改变网络主体结构 基线系统提供了不同的图神经网络结构选择,有GCN,GAT,APPNP,SGC和GCNII。我们可以通过比较不同的网络结构的性能...
  • 在写本科毕业论文的时候又回顾了一下神经网络调的一些细节问题,特来总结下。主要从weight_decay,clip_norm,lr_decay说起。 以前刚入门的时候调只是从hidden_size,hidden_num,batch_size,lr,embed_size...
  • 神经网络的调顺序

    2019-09-27 07:26:27
    1. Andrew Ng 的个人经验和偏好是: 第一梯队: learning rate α ...[关于神经网络的调顺序?] 2.  LSTM超参数调试注意事项 转载于:https://www.cnblogs.com/nxf-rabbit75/p/10002680.html
  • 1, 验证集(开发集)的概念 训练集(Training set)——用来训练算法的数据集,亦即用来确定W、b参数,训练集就是用来训练参数的,说准确点,一般是用来梯度下降的。 开发集(development set)——用来对学习算法调整参数...
  • 技巧3.1.Random Search代替Gird Search3.2.搜索过程:粗调→细调3.3.超参数的选取尺度3.3.1.对数尺度3.3.2.线性尺度4.调4.1.学习率4.2.Epoch4.3.mini-batch size4.4.激活函数4.5.优化器4.6.权重初始化4.7....
  • 最近网络一直有收敛的问题,怀疑是梯度在训练的时候爆炸或归零导致分类器对evaluate集全0或全1预测。 This blog gives a quick step to check the model: ... ...
  • 机器学习入门——浅谈神经网络 1.贝叶斯优化调-Bayesian optimiazation原理加实践 调神器,基于高斯过程。不确定是否和贝叶斯VAR模型有联系?或者说数学原理是通用? 贝叶斯优化调-Bayesian optimiazation...
  • LGBM和XGBoost调汇总2.1 LGBM2.1.1 定义Objective2.1.2 调try2.1.3 绘图2.1.4 最佳参数2.2 XGBOOST2.2.1 定义Objectove2.2.2 调try2.2.3 绘图2.2.4 最佳参数 1. optuna简介 在Kaggle比赛的过程中我发现了一个...
  • 神经网络调小工具

    2019-03-03 12:52:45
    神经网络调小工具网址,这个网址可以帮助你熟悉神经网络的参数和他们各自的作用。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 26,789
精华内容 10,715
关键字:

参神经