精华内容
下载资源
问答
  • 2022-05-01 15:10:08

    --neozng@hnu.edu.cn

    5.5. 参数自适应方法和稳健特征

    不论是传统的图像增强算法还是神经网络,总有一些参数是需要手工调整的,而这些参数得设置是否恰当,往往会影响整个算法的表现。手动设置的参数往往是针对部分情景和特定目标的,若环境或任务发生改变,之前的参数很可能会失效。这也是为什么我们都追求一种能够适应尽可能多的场景的参数设定方法,亦或是尝试元学习以指导参数的自动选取,减少人为干预。

    不过即使再怎么追求hand-crafted free,我们似乎无法逃脱设置参数的魔咒——用于选取参数的算法在另一种角度来看仍然是一种参数,也就是深度学习中常说的超参数,而超参数之上亦有参数,这就是meta learning。如果我们希望不要人为设定meta learning的参数呢?那便有了meta-meta learning,我们可以不断增加meta的前缀直至无穷无尽... 即使是下面介绍的自适应方法本身,也算是一种prior knowledge,或者约束。

    因此,参数自适应的方法就显得尤为重要了。我们希望能够在分割图像的时候自动选取合适的阈值,希望在分类图像的时候得到错误率最小的置信度阈值,希望在获取图像特征的时候划分得到最富有语义信息的部分······

    本节将会介绍传统的图像处理中常见的参数自动选取和阈值自适应技术,以及运用了这些方法的特征点检测/目标i检测算法如LBP/FAST/SURF/ORB/SIFT/HOG。此节的内容也会更贴近实际应用,会稍微涉及一些比赛中的实用coding方法。

    理论上来说,这一部分应该放在神经网络和CNN之前,因为CNN其实算是借鉴传统方法发展起来的,其特征表和提取都算是传统方法的泛化结果。

    5.5.1. 阈值自适应与不变特征

    对于黑白图像(彩色图像同理),亮度/像素点的值是最基本的特征。一般的计算机视觉任务都需要对输入进行预处理如标准化、提亮/暗化、锐化/模糊等,所以首先来看看像素级特征和形态学特征。

    5.5.1.1. 亮度自适应

    由于相机曝光/光圈/外界光线环境的变化,输入的图像常常有着不同的视野亮度。倘若我们希望在预处理中对所有图像进行整体提亮/暗化以达到相同的亮度水平,显然设置一两个一成不变的参数是不够的。不同的 图像要达到相同的 效果,就提醒我们应当使用自适应技术。 最简单的方法是对所有像素值求平均,然后使得所有图像的亮度均值相同,这样在稍后的处理中就可以用一个相同的参数对付所有图像了。

    不过增减均值有时候并不是最好的选择,若我们希望在稍后得到图像的形态学特征,常常需要进行二值化处理,这时候阈值的选取就非常关键了,如果部分图像整张都偏暗或偏亮,阈值稍大可能导致特征被删除,太小又可能留下过多不需要的形状;特别有时候我们希望增大图像的对比图突出边缘和纹路等细节,那可以使用直方图均衡化的技巧,其将一张分布不均匀(常常是有大块明暗区域)的图像的直方图变得更接近均匀分布。这能够大大提升图像的对比度,使得明暗的差异增大,让我们更好地分离需要的部分。其基本思想是对在直方图中密度大的区域进行展宽,而对密度小灰度级进行缩减。

    Histogram equalization的例子,图源知乎https://zhuanlan.zhihu.com/p/29772177

    经过HE的操作,原本不明显的边缘和纹理也都变得更清晰了,最重要的是现在可以方便的选择阈值进行二值化操作了。

    根据预处理目的的不同,我们也可以把没有达到均值部分的像素值与均值的差看作是某种损失,若相差越大就要施以更大的”惩罚“,即在稍后将此像素值增大/缩小得更多一些。比如L1 loss或L2 loss都是可用的,也可以采用一些更平滑的曲线。

    5.5.1.2. 局部阈值自适应

    前述的亮度自适应方法在一定程度上可以解决图像亮度变化造成的影响,但是考虑这种情况:我们分割出一张报纸上的文字(黑色字体),但是报纸的一侧暴露在阳光下,而另一侧则在黑暗中。那么即使进行了直方图均衡化,由于其亮度的”两极分化“,高亮和强暗区域仍然是糊成一团。这时候就应该选用局部阈值局部直方图的方法了,其本质是使用比全局统计特征(即直方图)更精细的分类。

    使用局部动态阈值和单一阈值的对比

    可以看到,采用动态阈值后很好地解决了这个问题。其实现过程也应该很容易想到:使用一个mean slide window或者gaussian slide Window处理整个图像,对部分区域统计均值/加权均值并由此设置均值的1/5或1/4(这个值仍然是人为设定的,取决于对细节的取舍)作为阈值,便可以得到上面的效果了。

    使用局部直方图均衡化对比全局均衡化,中间下方的纹路差别更大了

    局部直方图均衡化可以取得的效果和动态阈值相仿,不过和全局直方图均衡化希望得到形态学特征相比其更注重的是纹理和细节:对比上图中的global equlize和local equalize的结果就可以看到,若只希望得到外形轮廓即形态学特征,应该使用全局直方图均衡化,中间下方的沙坑轮廓非常明显;而要获取所有纹理特征,则应该选用局部直方图均衡化。

    其步骤也同样非常简单,取滑动窗口和一定的步长(你看吧,滑动窗口的大小的步长以及是否加padding仍然是需要人为设定的超参数,使用不同的参数可以得到不同的效果,可以自己想想试试看),对滑窗内进行均衡化即可。

    5.5.1.3. 形态不变特征

    注意区别这里介绍的是形态学特征(morphology feature,指的是图像中具有一定形状的图形)而非前述的一般特征,不过形态学特征是作为一般特征的子集。请结合具体的例子进行理解,如RoboMaster比赛中的装甲板识别任务。

    在处理形态学特征的时候,我们可能希望寻找一些由不同区块的轮廓组成的目标,在比赛中常见的即装甲板灯条的匹配,其在正常曝光下从远处看是两个对称的梯形,而我们一般将其视作一个轮廓进行处理。当我们希望匹配处于同一个物体上的两个或多个形态特征(对于装甲板识别就是找到处于同一块装甲板上的灯条),应该寻找对旋转/尺度/平移都有不变性的特征。

    以灯条匹配为例,装甲板距离相机的距离会导致灯条长度的改变,但是不论距离远近,处于同一块装甲板上的灯条的长度比始终应当保持不变(根据 4.1 介绍的相机小孔成像模型),这就是一个尺度不变特征,显然灯条的宽度比也同样是一个很好的衡量指标。而由长宽相乘得到的面积,也可以作为一个筛选/匹配的准则,不过应该使用面积比而不是面积(面积比和长/宽比似乎在一定程度上有一些耦合,不过可以对筛选顺序进行合理排序,面积比可能更容易清理哪些非灯条的目标,在 6.1.1 我们会再进行介绍)。

    至于平移不变性,这对于非定位和non-global-based的特征来说都是可以得到保证的,因为要利用形态学特征进行匹配,首先就应该定位这些轮廓

    最后是旋转不变性,角度是候选的常客,只要是目标在空间中进行的是刚体变换,变换后的特征仍然会服从角度一致。但是对于out-of-plane的投影变换(相机成像)来说,物体的任何性质都不会被保留。但是对于畸变程度较小的镜头和真实尺度较小的目标,在数倍焦距外的相对角度被投影到2d平面后往往只会产生轻微的形变,因此之间的相对角度仍然可以作为一个筛选的标准,一般只要适当放宽筛选条件即可,这也适合对匹配目标进行初步筛选,删除那些极端值。

    两个灯条拥有的尺度不变性特征

    更多相关内容
  • 2. 如何利用标准化指标使参数自适应? 3. 如何利用价格维度而不是时间维度来排除市场噪音? 4. 如何围绕一个成本中枢来寻找不同形态结构? 5. 如何构造双自适应通道 6. 常见的资金管理模型本质 PS:本文更多的是...
  • 前言在程序交易或者技术分析领域,大部分人都低滞后性的技术比较热衷,因为低滞后性可以先人一步得到交易系统的开仓信号。很不幸的是。股票期货市场上的趋势类技术指标,绝大多数都难逃指标值“滞后”的魔掌,就拿...

    牛角问答,股票期货专业投机者。

    e221b5df728e5f2877c5ab953f872dd2.png

    前言

    在程序化交易或者技术分析领域,大部分人都低滞后性的技术比较热衷,因为低滞后性可以先人一步得到交易系统的开仓信号。

    很不幸的是

    股票期货市场上的趋势类技术指标,绝大多数都难逃指标值“滞后”的魔掌,就拿均线来说,滞后性最强。

    当均线拐头时,价格已经涨了不少,一般都抓不到行情起始阶段。

    d67b98182ba9e0b6a5b0a3faf6588679.png

    甚至在行情震荡区间,金叉后立刻掉头下跌!

    均线完全跟不上行情反转的节奏,不得不承认这就是事实,这就是均线本身的缺陷

    想要完全消除滞后是不可能的,但可以减弱技术指标的滞后性。

    文章将介绍一种算法,可以将指标滞后性降到最低。那就是“考夫曼均线算法”,并与布林线算法结合,用程序化软件编写后实现自动化交易

    接下来,我们将对考夫曼均线进行深入研究。

    考曼均线真实面目

    考夫曼均线,也称“自适应均线”,而真正厉害的地方正是它的自适应这个优势。技术指标或程序化策略一旦有了自适应的功能,就等同于有了“灵魂”。

    所谓的“灵魂”是什么

    可以理解成它可以根据当前市场的波动,“自发的”去调整算法自身的参数,不断的自我“进化”,达到自适应市场的效果。

    简单移动平均线,不能动态调节公式自身的参数,只能按照固定的参数进行计算。

    请仔细对比下面两幅图

    8fbfc17360ab38eeb7369556e189f1dd.png

    图一,简单移动平均线

    733b4991438f6eabe548ba354f082870.png

    图二考夫曼自适应均线

    对比后发现了什么现象?

    考夫曼均线对行情反转较为灵敏,紧贴行情走势,而移动平均线反应非常迟钝、滞后。

    考夫曼均线趋势转震荡的时候,对行情的灵敏度降低,很快就进入了平缓状态

    考夫曼算法就好比恒温动物,当周围环境温度变低时,会启动体温调节中枢,自动调节身体的温度,以适应寒冷的冬季。

    这是考夫曼算法的核心。

    下面剖析考夫曼均线公式,科学客观的解释为何会出现这样的现象。

    下面是它的算法:

    3c612a5c94aa47b253799cdfade13188.png

    见公式万别晕,只关注1个点就ok。

    (1) 参数。

    • E = 10,计算EffRatio 所需的周期。
    • fast = 2,快周期。
    • slow = 30,慢周期。

    (2) 变量。

    • AMAValue ,当前考夫曼均线值,初始值=第一根k线的close。
    • AMAValue[1] ,前一根k线的考夫曼均线值。
    4a7adce86db09f5b9c659ff239bdb679.png

    要看懂公并不难

    假设其他参数不变的情况下,在公式运行过程中唯一变动的量其实就只有EffRatio这个变量。

    也就是考夫曼均线的“体温调节中枢”!

    EffRato变量,是这样影响考夫曼均线值的。作者将以上涨趋势为例。

    (1) 当市场上涨迅猛,那么EffRatio随之变大。

    此时如果将变大的EffRatio值带入下面第三个公式的最后一个加数后,整个AMAValue的值一定会变大。

    74caf06bdc4eea0e96bce5777ee438eb.png

    此时就会产生象①,考夫曼均线AMAValue与价格贴得更近!更灵敏!如下图所示。

    51fb095a4c6d76eaefe21447974148c2.png

    这是EffRaio变大的情况下,均线值的变化情况。

    接下来,揭露当市场反转或横向整理的时候,现象②是如何发生的。

    (2) 当市场上涨动力衰竭,价格横向整理时,那么EffRatio随之变小。

    此时如果将变小的EffRatio值带入下面第三个公式的最后一个加数后,整个AMAValue的值一定会变小。

    1ba1d2a6c4c01eab39a86416cda25070.png

    此时,就会产生现②,灵敏度降低,很快就进入了平缓状态,如下图所示。

    a09b10ee8d6beca0a4879135b7920278.png

    小结。

    作者花了么大的篇幅讲解考夫曼均线算法的内在逻辑,是为了让读者在下一部分的运用中,做到知其然,还要知其所以然

    以上,就考夫曼均线的内在运行机理。下面将布林线算法和考夫曼均线相结合,形成一个最终的程序化交易策略。

    俗称“自适应版”的布林线策略

    当布林线算法遇到考夫曼均。

    作者在研究布林线策略时,最头疼就是布林线算法里的20周期移动平均线,导致策略信号滞后的问题,如下图所示。

    1d43c567e7c959a32043780d853fccdb.png

    可以清楚的看到,当价格破上轨时,行情已经涨了不少,大大压缩了策略利润。

    (1) 简单讲解下布林线算法。

    布林线有上轨、下轨、中轨。

    • 中轨,20日移动平均线。
    • 上轨,中轨 + N*20周期标准差。
    • 下轨,中轨 - N*20周期标准差。

    大概的效果可以参照上图中的布林线图。

    (2) 如何用考夫曼均线算法,改善策略开仓信号滞后问题呢?

    很简单的操作。

    直接将布林线算法的20移动平均线替换成考夫曼均线,以此计算布林线的上下轨。

    这个是非常好的思路!

    原因主要有以下:

    ① 获得比其他程序化交易者更快的交易信号,快人一步。

    ② 让策略拥有考夫曼均线算法的自适应特性,策略在未来的自适应能力更加强大。

    让我们对比一下改进前和改进后的效果对比。

    0d67a5a9bf55b09778090abbae873b93.png

    改进前。

    b103afea989d91631923605856f870f2.png

    改进后。

    同是布林线,考夫均线版本和简单移动平均线版本,他们的信号差距如此之大。

    (3) 基于考夫曼算法的布林线策略开平逻辑。

    整个策略的开仓会涉及跨周期过滤、跟踪止盈以及假突破的过滤三大方法。

    策略开平仓逻辑:

    • 最高价突破,布林线上轨+ATR,且价格在周线EMA8均线之上,开多。
    • 最低价触发,跟踪止盈线时,平多。
    • 开空逻辑同理。

    策略的最终效果如下图。

    3dcfc5df9f961ec571f356e876dd4232.png

    做空信号。

    96d49cd82e75a82639fab5f8939e1afd.png

    做多信号。

    这就整个考夫曼算版的布林线策略。

    小结。

    到目前为止,我们利用了考夫曼自适应算法对布林线策略进行了改进,将20日移动平均线替换成了考夫曼均线。

    作者最主要的目的就是要让大家知道,考夫曼均线在布林线策略中的优势,让其更好的为策略服务。

    回测分析

    下面将用螺纹钢指数进行回测析。

    回测参数设置:

    • 回测资金10万。
    • 回测时间,2009年至今。
    • 品种,螺纹钢指数合约。
    • 回测周期,30分钟。
    • 滑点1跳。
    • 费用,1%%。
    • 仓位,资金20%。

    回测资金曲线:

    973b4d3c508ffa11c137f905d5431c41.png

    最后

    作者用这篇文章,主要给大家细的剖析了考夫曼均线算法的自适应原理,以及利用其特性对布林线策略进行升级改造。

    使得布林线拥有了自适应的特性,降低策略的滞后性。获得了不错的收益!

    其实,一通百通。我们可以基于考夫曼均线算法原理对其他技术指标进行升级改造,最终形成自己的一套自适应算法。

    展开全文
  •  (2)正则系数:L1或L2正则的系数 问题:  (1)超参数优化是一个组合优化问题,无法通过梯度下降法优化,也没有通用有效的方法  (2)评估一组超参数配置的时间代价很高,导致一些方法无法实际使用 1.2 网格搜索...

    1.超参数调整

    1.1 基本概念

    定义:神经网络中,除了可学习的参数外,还存在很多超参数,这些超参数对模型性能的影响也很大,需要合理设置
    分类:
     (1)网络结构:神经元间连接关系、层数、神经元个数、激活函数等
     (2)优化参数:优化方法、学习率、batch size
     (2)正则化系数:L1或L2正则化的系数
    问题:
     (1)超参数优化是一个组合优化问题,无法通过梯度下降法优化,也没有通用有效的方法
     (2)评估一组超参数配置的时间代价很高,导致一些方法无法实际使用

    1.2 网格搜索(Grid Search)

    定义: 一种通过尝试所有可能的组合来寻找最优超参数配置的方法
    在这里插入图片描述
    实现: 为每个参数设定取值,依次尝试所有组合情况,最后取最优的一组
       设共有 K K K个超参数,第 k k k个超参数可取 m k m_k mk个值,则总配置组合数量为 m 1 ∗ m 2 ∗ . . . ∗ m K m_1*m_2*...*m_K m1m2...mK
    缺点:
     (1)暴力尝试所有组合,计算速度慢
     (2)会在不重要的参数上进行大量尝试,存在大量无意义的计算
     (3)需要手动设置各参数的离散化取值,可能未包含最优值

    1.3 随机搜索

    定义: 随机选择各超参数的取值进行组合,选择一组最好的配置
    优点: 实现简单,能避免对不重要的参数进行大量尝试,实际效果比网格搜索高效
    缺点: 仍需要人工设置各超参数取值,没有利用超参数组合间的相关性

    1.4 贝叶斯优化

    定义: 一种自适应的超参数优化方法,能根据已有超参数组合的表现来预测下一个可能的最优组合
    实现(选修): 时序模型优化
     设超参数优化的函数 f ( x ) f(x) f(x)服从高斯过程,则 p ( f ( x ) ∣ x ) p(f(x)|x) p(f(x)x)为正太分布
     贝叶斯优化根据已有的 N N N组试验结果 H = { x n , y n } n = 1 N H=\{x_n,y_n\}^N_{n=1} H={xn,yn}n=1N来建模高斯过程,其中 y n y_n yn f ( x n ) f(x_n) f(xn)的观测值
     计算 f ( x ) f(x) f(x)的后验分布 p g p ( f ( x ) ∣ x , H ) p_{gp}(f(x)|x,H) pgp(f(x)x,H)
     为了使后验分布 p g p ( f ( x ) ∣ x , H ) p_{gp}(f(x)|x,H) pgp(f(x)x,H)更接近真实分布,就需要对样本空间进行足够多的采样,但超参数优化中每一个样本的生成成本都很高,因此要用尽可能少的样本来使 p θ ( f ( x ) ∣ x , H ) p_\theta(f(x)|x,H) pθ(f(x)x,H)接近真实分布
     因此,需要定义一个收益函数 a ( x , H ) a(x,H) a(x,H)来判断一个样本是否能为 p θ ( f ( x ) ∣ x , H ) p_\theta(f(x)|x,H) pθ(f(x)x,H)提供更多收益,收益越大,就越接近真实分布
     常用的收益函数是期望改善函数EI,设 y ∗ = m i n { y n , n ∈ [ 1 , N ] } y^*=min\{y_n,n \in [1,N]\} y=min{yn,n[1,N]},则期望改善函数为:
         E I ( x , H ) = ∫ − ∞ ∞ m a x ( y ∗ − y , 0 ) p g p ( y ∣ x , H ) d y EI(x,H)=\int_{-\infty}^{\infty}max(y^*-y,0)p_{gp}(y|x,H)dy EI(x,H)=max(yy,0)pgp(yx,H)dy
     其表示一个样本 x x x在当前模型 p g p ( y ∣ x , H ) p_{gp}(y|x,H) pgp(yx,H)下, f ( x ) f(x) f(x)超过最优结果 y ∗ y^* y的期望

    算法流程:
    在这里插入图片描述

    1.5 动态资源分配

    定义: 通过前一段时间的表现来预测后续的表现,如果预测出当前超参数配置效果较差,就提前中止;类似于强化学习
       动态资源分配的关键是将有限的资源分配给更有可能带来收益的超参数组合
    实现: 逐次减半法
     每次只选取表现前50%的配置继续尝试
     设共 N N N组超参数配置,总资源为 B B B,则可以通过 T = [ l o g 2 ( N ) ] − 1 T=[log_2(N)]-1 T=[log2(N)]1轮逐次减半的方法来选取最优配置
    在这里插入图片描述

    1.6 神经架构搜索

    定义: 一种最新的研究方向,通过强化学习等方法来自动搜索最优网络结构
    优点: 能够对网络结构进行搜索,而网络结构通常需要有经验的专家设计
    原理: 用变长的字符串来描述一个神经网络的结构,利用一个控制器来生成另一个子网络的架构描述,控制器可由RNN实现,控制器的训练可通过强化学习完成,其奖励即生成的子网络的准确率

    1.7 实际工程中的超参数调整

    定期超参数重评估:
    定义:在实际工程中,需要定期对超参数进行评估和调整
    原因:随着数据的更新与变化,最优超参数会不断改变,因此需要定期重新计算
    在这里插入图片描述
    实际超参数调整方法:
    计算资源少:对一个模型进行精细调整,逐步优化
    计算资源多:一次同时训练多个模型,选择表现最好的
    在这里插入图片描述


    2.逐层归一化

    2.1 基本概念

    定义: 是一种将传统机器学习中数据归一化方法应用到深度神经网络中,对神经网络中隐藏层的输入输出进行归一化,从而使网络更易训练
    问题:协变量偏移(covariate shift)
     定义:当训练数据x的分布发生变化时,则需要重新训练模型,即使x->y的映射关系是正确的
     例子:只使用黑猫图片训练模型,而在实际任务中包含各种猫,虽然模型能识别猫,但在实际任务中仍会失效
      在这里插入图片描述
    功能/原理:
     (1)更好的尺度不变性:由于深度神经网络是由多个隐藏层堆叠而成,一个神经层的输入是上一个神经层的输出,因此后面层会受到之前层的影响,如果之前层出现了偏差,那么后面层也会出现偏差,且随着堆叠深度的增加,偏移愈发严重,存在内部协变量偏移问题
      而将每个神经层的输入分布进行归一化,变为标准正态分布后,可使各神经层具有更好的尺度不变性,不论低层参数如何变化,高层的输入仍保持相对稳定,减小了之前层对后面层的影响。此外,尺度不变性还能使参数初始化和超参数选择更加高效
     (2)更平滑的优化地形:逐层归一化可使大部分神经层的输入处于不饱和区域,从而使梯度变大,避免梯度消失问题;还可使神经网络的优化地形更加平滑,利于模型收敛,提高训练速度与稳定性
     (3)引入一定正则化效果:在使用小批量梯度下降法训练时,由于每次使用数据较少,计算出的均值和方差具有一定噪音,在使用有噪音的均值和方差来进行逐层归一化时,就相当于在隐藏层中加入了噪音;原理同dropout一样,能使各神经元更加独立,但只有轻微的噪音,并不如dropout强大,因此只具有轻微正则化效果

    常用方法: 批量归一化、层归一化、权重归一化、局部响应归一化

    2.2 批量归一化

    定义: 是一种有效的逐层归一化方法,可以对神经网络中任意的中间层进行归一化操作
    实现: 对神经层净输入 z ( l ) z^{(l)} z(l)进行归一化,常用标准化,将每一维变为标准正态分布
        在这里插入图片描述
    补充:一个神经层可表示为 a ( l ) = f ( z ( l ) ) = f ( W a ( l − 1 ) + b ) a^{(l)}=f(z^{(l)})=f(Wa^{(l-1)}+b) a(l)=f(z(l))=f(Wa(l1)+b),其中 z ( l ) z^{(l)} z(l)表示该层净输入, a ( l ) a^{(l)} a(l)表示该层输出, f ( ⋅ ) f(\cdot) f()是激活函数

    引入批量归一化后的训练过程:
    特点:
     可以去掉偏置项b,因为批量归一化自带平移变换,因此无需偏置系数b;
     因此,每一神经层可表示为:
        在这里插入图片描述
    训练过程:
    在这里插入图片描述
    小批量时的批量归一化:
    问题 / 定义:
     (1)由于目前主要的优化算法是基于小批量的随机梯度下降法,而在小批量下无法计算整个数据集上的均值和方差;因此,常用当前小批量数据的均值和方差来近似代替整体,计算公式如下:
        在这里插入图片描述
     (2)此外,进行归一化后会使取值集中在0附近,如用Sigmoid激活函数,则该区间接近线性变化,减弱了神经网络的非线性性质,会造成负面影响;因此,还需要引入两个可学习的修正系数,缩放系数 γ \gamma γ和平移系数 β \beta β,引入修正项后其最终公式如下:
        在这里插入图片描述
    测试阶段:
    问题:通常测试集中小批量的数据量较小(多数情况一次只有一个数据),因此在测试集计算出的均值和方差具有较大误差
    解决:使用训练时得到的各小批量的均值与方差的移动平均代替,而不在测试阶段重新计算均值与方差
       在训练结束后,应用整个数据集的均值 μ \mu μ和方差 σ 2 \sigma^2 σ2替换每次小批量样本的均值 μ B \mu_B μB和方差 σ B 2 \sigma^2_B σB2
    在这里插入图片描述
    梯度下降过程:
    在这里插入图片描述

    2.3 层归一化

    定义: 一种与批量归一化类似的方法,不同的是,层归一化对一个中间层的所有神经元进行归一化,而批量归一化只对一个中间层的单个神经元进行归一化
    优点: 解决了批量归一化存在的问题
     (1)即当一个小批量数据量过小时,小批量的均值和方差与整体均值与方差存在较大误差,难以近似代替;
     (2)如果一个神经元的净输入的分布在神经网络中是动态变化的,比如循环神经网络,那么就无法应用批量归一化操作
    实现:
     对于一个深度神经网络,令第 𝑙 𝑙 l 层神经元的净输入为 𝒛 ( 𝑙 ) 𝒛(𝑙) z(l),其均值和方差为:
        在这里插入图片描述
     其中 𝑀 𝑙 𝑀_𝑙 Ml 为第 𝑙 𝑙 l层神经元的数量
     则层归一化定义为:
        在这里插入图片描述
    层归一化与批量归一化比较:
     两者整体上是十分类似的,差别在于归一化的方法不同,对于 𝐾 𝐾 K个样本的一个小批量集合 𝒁 ( 𝑙 ) = [ 𝒛 ( 1 , 𝑙 ) ; ⋯ ; 𝒛 ( 𝐾 , 𝑙 ) ] 𝒁(𝑙) = [𝒛^{(1,𝑙)}; ⋯ ; 𝒛^{(𝐾,𝑙)}] Z(l)=[z(1,l);;z(K,l)],层归一化是对矩阵 𝒁 ( 𝑙 ) 𝒁^{(𝑙)} Z(l) 的每一列进行归一化,而批量归一化是对每一行进行归一化.

    选择: 一般而言,批量归一化是一种更好的选择;当小批量样本数量比较小时,可以选择层归一化

    2.4 权重归一化

    定义: 是对神经网络的连接权重进行归一化,通过再参数化(Reparameterization)方法,将连接权重分解为长度和方向两种参数
    实现:
     设第 l l l层神经元 a ( l ) = f ( W a ( l − 1 ) + b ) a^{(l)}=f(Wa^{(l-1)}+b) a(l)=f(Wa(l1)+b),可将 W W W再参数化为:
        在这里插入图片描述
     其中, W i , : W_{i,:} Wi,:表示权重 W W W的第 i i i行, M l M_l Ml为神经元数量,新引入的参数 g i g_i gi为标量, v i v_i vi a ( l − 1 ) a^{(l-1)} a(l1)维数相同
    优点: 由于在神经网络中权重经常是共享的,权重数量往往比神经元数量要少,因此权重归一化的开销会比较小


    内容汇总:Coursera-吴恩达-深度学习(DL)专项课-课程笔记与编程实战-汇总

    展开全文
  • 背景和预览 1、滤波问题: 从含噪的数据中提取有用的信息。 2、三种基本估计(基本的信息处理运算): (1)滤波:使用t时刻及其以前的数据来提取或者估计t时刻有用信息。实时 (2)平滑:后验形式的...性能指标:收敛

    背景和预览

    1、滤波问题:
    从含噪的数据中提取有用的信息。

    2、三种基本估计(基本的信息处理运算):
    (1)滤波:使用t时刻及其以前的数据来提取或者估计t时刻有用信息。实时
    (2)平滑:后验形式的估计。用0到t时刻的数据获取t’时刻平滑估计(t‘<t),包含t-t’的时延,但是相较于(1)滤波更准。非实时
    (3)预测:用0到t时刻的数据估计t’时刻的有用信息(t’>t)。实时

    3、线性最优滤波器:
    如果输出是输入的线性函数,则是线性滤波器,否则是非线性滤波器。

    4、自适应滤波器:
    性能指标:收敛速度、失调(最终均方误差与维纳滤波最小均方误差之间的偏离程度)、跟踪(跟踪环境统计量的变化)、鲁棒性、计算要求、结构、数值特性

    5、线性滤波器结构:
    自适应滤波过程(1)滤波:对输入产生输出响应(2)自适应过程:提供滤波过程中可调参数自适应控制的算法。
    (1)具有有限记忆的线性滤波器:
    1)横向滤波器:(抽头延迟线性滤波器、有限脉冲响应滤波器)
    在这里插入图片描述
    横向滤波器由单位延迟单元乘法器加法器组成。延迟单元的个数滤波器阶数)确定了脉冲响应的有限持续时间。乘法器的作用是用滤波器系数抽头权值)乘以与其相连的抽头输入。横向滤波器输出:
    在这里插入图片描述
    上式叫做有限卷积和。

    2)格型预测器:
    在这里插入图片描述
    格型滤波器具有模块结构,由大量独立的级组成,级数就是阶数。
    在这里插入图片描述
    fm(n)是第m级前向预测误差,bm(n)是第m级后向预测误差。km叫做m阶发射系数。

    3)脉动阵列:
    脉动阵列表示并行计算网络,非常适合映射大量重要的代数计算,诸如矩阵乘法、三角化和反向替代。基本处理单元:边界单元和内部单元。
    在这里插入图片描述
    在这里插入图片描述
    图7的三角脉动阵列主计算了在这里插入图片描述R的转置矩阵的元素是三角阵列中各自单元的内容。0加到输入是为了提供上式流水线计算所需要的延迟。

    (2)具有无限记忆的线性滤波器:
    在这里插入图片描述
    IIR滤波器包含反馈支路,使脉冲响应的持续时间变为无限长。但是会导致不稳定。

    6、线性自适应滤波器的研究方法:
    (1)随机梯度法:
    使用抽头延迟线或者横向滤波器作为实现线性自适应滤波器的构造基础。

    对于平稳输入的情况,代价函数(性能指标)定义为均方误差(期望响应与输出之差的均方值)。代价函数恰好使横向滤波器中抽头权值的二次函数。未知抽头权值均方误差的函数关系看作是具有唯一确定的极小点的多为抛物面(误差性能曲面),对应该曲面极小点的抽头权值定义了最优维纳解。

    分两步推导更新自适应横向滤波器抽头权值的递归算法:首先,使用迭代求解维纳-霍夫方程(采用最速下降法:这个方法需要使用梯度向量,其值取决于横向滤波器中的抽头输入的自相关矩阵以及期望响应与该抽头输入之间的互相关向量);其次,我们使用这些相关的瞬态值,以便推导梯度向量的估计值,推导中假设该向量是随机的。
    基于上述思想的算法就是LMS:
    抽头权向量更新值 = 老的抽头权向量值 + (学习率参数)X(抽头输入向量)X(误差信号)
    LMS算法简单,但是收敛速率慢(随机误差,受期望响应d影响大,所以收敛慢,而且收敛后的性能差),而且对抽头输入相关矩阵条件数(矩阵的条件数定义为最大特征值与最小特征值之比)的变化比较敏感。

    (2)最小二乘估计:
    对加权误差平方和形式的代价函数最小化,其中误差或残差定义为期望响应与实际滤波器输出之差。

    最小二乘法可用块估计或者递归估计表示。在块估计中,输入数据流以等长度块的形式排列,而且一块一块地对输入数据进行滤波处理,而在递归估计中,一个样值一个样值的对感兴趣的估计进行更新。递归估计需要更少的存储量。

    RLS可看做卡尔曼滤波的特例。卡尔曼滤波器著名的特点是状态概念,它提供了特定时刻加到滤波器抽头所有输入的一个度量,卡尔曼滤波算法的核心部分,存在一种递推关系:
    (状态递推值) = (旧的状态值) + (卡尔曼增益)(新息向量)
    新息向量表示在计算时刻进入滤波过程的新的信息。在卡尔曼变量和RLS变量之间的确存在一一对应关系。这个对应关系使得我们可以从大量卡尔曼滤波器文献中选择一些方法用来设计基于最小二乘估计的线性自适用滤波器。

    取决于所采用的方法,递归最小二乘线性自适用滤波算法族可分为三类:
    1)标准RLS算法:横向滤波器。矩阵求逆引理(已知一个高维矩阵A的逆矩阵,当A矩阵产生了一个非常小的变化(维数远低于A或者低于A)时,能不能根据已知的A的逆矩阵,求产生微小变化后的矩阵的逆。)
    在这里插入图片描述
    标准的RLS算法缺点:缺乏数值鲁棒性和计算复杂度高。

    2)平方根RLS算法:基于输入数据矩阵的QR分解。?????????

    3)快速RLS算法:上述两种算法复杂度O(M^2)。(LMS是O(M))
    在瞬态处理情况下,首先利用输入数据矩阵的托伯利兹结构所固有的冗余度优点,其次通过利用前向和后向两个方向线性最小平方预测中的冗余度。两种形式:
    (1)阶更新自适应滤波器:以类似于线性前向和后向预测中采用的格型结构为基础。某些数值稳定。
    (2)快速横向滤波器:线性前向和后向预测用分离的横向滤波器完成。数值不稳定。

    LMS是模型无关的跟踪特性较好,RLS模型相关,跟踪性能差。

    7、自适应滤波器的实数和复数形式:
    在这里插入图片描述
    在这里插入图片描述

    8、自适应波束形成
    当传感器均匀地位于某一直线上的时候,空间滤波器中的数据快照起到了类似于某一特定时刻横向滤波器中的一组连续抽头输入的作用。波束形成的目的就是区分信号和噪声的空间特性。
    在这里插入图片描述
    在这里插入图片描述
    由于角度被限制在-pi/2到pi/2之间,角度的允许值在-pi到pi之间,所以d必须小于入/2,以使得两个角度值之间存在一一对应关系。

    8、自适应滤波器的四种应用:
    基本特征:输入向量和期望响应被用来计算估计误差,该误差用来控制一组可调滤波器系数。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    展开全文
  • 标准化(Batch Normalization)

    万次阅读 多人点赞 2018-09-01 16:19:29
    Batch Normalization中文一般称为 “批标准化/规范化”,是一种对数值的特殊函数变换方法,也就是说假设原始的某个数值是 x,套上一个起到规范化作用的函数,对规范化之前的数值 x 进行转换,形成一个规范化后的数值...
  • 自适应滤波器的设计(终极版)

    千次阅读 2021-04-17 10:15:06
    目 录 摘 要**……………………………………………………………………………………**I...第2章 自适应滤波器理论基础 5 2.1 自适应滤波器简介 5 2.2 自适应滤波器的原理 5 2.3 自适应滤波算法 7 2.4 TMS320VC5402的简介
  • 正则路径是在正则化参数lambda的值网格上计算套索LASSO或弹性网路惩罚的正则路径。该算法速度快,可以利用输入矩阵x中的稀疏性,拟合线性、logistic和多项式、poisson和Cox回归模型。可以通过拟合模型进行各种...
  • 旷视研究院提出对抗攻击新方法DaST:无需真实数据训练替身模型 CVPR 2020 Oral | 旷视研究院提出注意力归一AN,优化图像生成任务性能 CVPR 2020 | 旷视研究院提出SQE:多场景MOT参数自优化度量指标 CVPR 2020 | ...
  • 系统辨识与自适应控制期末复习

    千次阅读 多人点赞 2019-06-08 21:34:21
    1 什么是自适应控制器 定义:具有“结构或参数整定机构”的控制器。例如:变参数 PID 控制器; 1. 形式上:自适应控制律是非线性或线性时变控制律; 2. 效果上:是一种可以根据环境(包括噪声、干扰)以及被控对象...
  • 浅谈自适应滤波器

    万次阅读 多人点赞 2016-09-11 15:31:43
    在通常的滤波场合中,从频域的角度进行滤波,其相关的理论已经相当的成熟,只要给出相应的设计指标就可以很方便的设计出满足要求的滤波器。然而在更一般的情况下,人们所需要的滤波器工作的环境是时变的,这就导致...
  • 优化算法做的事就是在 模型表征空间中找到模型评估指标最好的模型。这里就引出了什么是模型的表征空间,以及什么是评估指标了。只有正确地应用表征空间以及评估指标,才可以更好地优化模型 譬如SVM的模型表征空间...
  • 目录“AI+教育“的场景和典型产品自适应学习产品的价值教育的痛点解决方案自适应学习产品指标自适应学习系统教学过程产品系统基本原理系统三大要素及挑战系统核心技术要求自适应学习产品分析英语流利说APPDuolingo...
  • 特征融合:如注意力模型,图像修复算法,利用权重参数来调整特征融合的贡献大小 关注点.3D目标检测-自适应融合 1.多传感器数据类型: 基于RGB图像:它首先预测 2D 边界框,然后使用神经网络来估计缺失的深度信息,将...
  • 最后,提出探索者-跟随者数量自适应调整策略,利用各阶段探索者和跟随者数量的改变增强算法前期的全局搜索能力和后期的局部深度挖掘能力,提高算法的寻优精度。选取16个基准函数和Wilcoxon检验进行验证,实验结果...
  • 多维流数据的自适应实时异常检测

    千次阅读 2020-04-11 22:56:31
    例如,由于数据不断地到达,零均值单位方差标准化是困难的。他们还指出流数据的缺失值处理缺乏。一些数据标签可能也会有延迟,因此不能用于正确的预测,或者最新数据没有用于预测。 设备生成的流数据通常构造一个或...
  • 什么是超参数?学习器模型中一般有两类参数,一类是可以从数据中学习估计得到,我们称为参数(Parameter)。还有一类参数时无法从数据中估计,只能靠人的经验进行设计指定,我们称为超参数(H...
  • 自适应信号处理理论数学角度综述

    千次阅读 2019-12-20 17:20:59
    通过自适应参数集迭代使得目标函数最小的方法 步长或者修正项 旨在使目标函数 最小。 1. 2. 2.1. 2.1.1. 2.1.1.1. 3.1.1.1.1.1 牛顿方法 寻找目标函数二阶近似的最小值。牛顿方法要求在任意点存在...
  • 论文研读-多目标自适应memetic算法

    千次阅读 2020-07-20 12:10:48
    论文研读-多目标自适应memetic算法 Adaptive Memetic Computing for Evolutionary Multiobjective Optimization 觉得有用的话,欢迎一起讨论相互学习~ 此篇文章为 V. A. Shim, K. C. Tan and H. Tang, "Adaptive ...
  • 为了进一步利用rgb图像中丰富的纹理线索进行更精确的视差估计,本文引入了一个直观的概念模块——自适应变焦,它同时将二维实例边界框的大小调整为统一的分辨率,并相应地调整相机的内部参数。通过这种方式,本文...
  • Adaptive optimal multi-critic based neuro-...人体利用电流刺激肌肉运动。但有时由于脊髓损伤大脑和肌肉之间的电信号断开,导致半身不遂。功能性电刺激(Fuctional electrical stimulation, FES)是用电来刺激肢体功...
  • 提出了循环一致对抗域适应算法(CyCADA),该算法在像素级和特征级对表示进行适应,同时通过像素循环一致性和语义损失实现局部...CyCADA整合了之前的特征级别和图像级别对抗域自适应方法和循环一致的图像到图像翻译技术.
  • 双向特征融合的数据自适应SAR图像舰船目标检测模型 人工智能技术与咨询昨天 本文来自《中国图象图形学报》,作者张筱晗等 摘要:利用合成孔径雷达(synthetic aperture radar,SAR)图像进行舰船目标检测是实施...
  • 对于项目反应理论指导纸笔测验阶段,进行自适应化,形成计算机自适应测验(CAT),下一步再将测量目标也改为离散变量和认知诊断测验,形成认知诊断计算机自适应测验(CD-CAT)。 上面描述太抽象,下面就来举一个简单...
  • 客观评价-基于指标客观评价-基于模型R&S®UPV音频分析仪小结那么我们现在用哪些评价方法呢?基于深度学习的方法:AutoMOS, QualityNe, NISQA, MOSNetMOSNet(`absolute.mosnet`或`mosnet`)语音质量的感知评估...
  • 回声消除中的自适应滤波算法综述

    千次阅读 2019-11-01 21:50:00
    自适应回声消除原理  声学回声是指扬声器播出的声音在接受者听到的同时,也通过多种路径被麦克风拾取到。多路径反射的结果产生了不同延时的回声,包括直接回声和间接回声。 直接回声是指由扬声器播出的声音未经任何...
  • DRANet将图像表示分离,并在潜在空间中传输视觉属性,以实现无监督的跨域自适应。与现有的学习共享一个域的相关特征的域自适应方法不同,DRANet保留了每个域特征的独特性。我们的模型对源图像和目标图像的内容(场景...
  • 【CVPR2022 BoostMIS 论文笔记】自适应伪标记和信息主动标注的医学图像半监督学习,BoostMIS: Boosting Medical Image Semi-supervised Learning with Adaptive Pseudo Labeling and Informative Active Annotation
  • 然后用对象参数估计值和事先规定的性能指标在线综合出调节器的控制参数,并根据此控制参数产生的控制作用对被控对象进行控制经过多次地辨识和综合调节参数可以使系统的性能指标趋于最优。   图 4.1-1 自校正控制...
  • 目录 一、偏态分布 1、何为数据的偏态分布? 2、构建模型时为什么要尽量将偏态数据转换为正态分布数据?...2.1、数据的标准化(normalization)和归一化 2.2、归一化和标准化能带来什么 2....

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 6,774
精华内容 2,709
关键字:

利用标准化指标使参数自适应

友情链接: ESP32烧写固件软件.rar