精华内容
下载资源
问答
  • 最后发现,在较小的数据集中(大数据集未必),Leaky ReLU及其变体(PReLU、RReLU)的性能都要优于ReLU激活函数;而RReLU由于具有良好的训练随机性,可以很好的防止过拟合。 一、背景 我们在设计神经网络时候,在选择...

    在这里插入图片描述

    前言

    论文地址: https://arxiv.org/pdf/1505.00853.pdf.

    论文贡献:

    这篇论文并没有提出什么新的激活函数,而是对现有的非常火的几个非饱和激活函数作了一个系统性的介绍以及对他们的性能进行了对比。最后发现,在较小的数据集中(大数据集未必),Leaky ReLU及其变体(PReLU、RReLU)的性能都要优于ReLU激活函数;而RReLU由于具有良好的训练随机性,可以很好的防止过拟合。

    一、背景

    我们在设计神经网络时候,在选择激活函数方面,大家都有一个常识:使用非饱和激活函数取代替饱和激活函数。主要原因有两个:1)非饱和激活函数可以解决梯度爆炸问题;2)非饱和激活函数可以加快模型收敛速度。

    而在非饱和激活函数中,最成功的使用范围最广的当属ReLU激活函数,在上一篇博客: ReLU Activation(2011).中我们就系统性的讨论了ReLU激活函数的由来,以及它的优缺点。我们可以知道,ReLU激活函数成功的最大秘籍在于它具有稀疏性(Sparsity)特征。

    但是在最新的Leaky ReLU家族中,却打破了这个秘籍,在 x<0 部分主动的使用一些非零梯度来代替原先全为0(稀疏性)。原因也可以从前一篇博客中知道:因为 x<0,太绝对了,很容易在训练的时候产生神经元坏死现象:某些神经元可能永远不会被激活,导致相应参数永远不会被更新(在负数部分,梯度为0)。

    人们先后又提出了Leaky ReLU及其变体函数来解决这个问题。4个函数图像如下图:
    在这里插入图片描述

    一、ReLU

    R e L U = m a x ( 0 , x ) = { 0 , if x<0 x , if x ≥ 0 ReLU = max(0, x) = \begin{cases} 0, & \text {if x<0} \\ x, & \text{if x$\geq$0} \end{cases} ReLU=max(0,x)={0,x,if x<0if x0

    函数图像和导函数图像如下:
    在这里插入图片描述

    二、Leaky ReLU

    函数公式:
    f ( x ) = m a x ( a x , x ) = { a x , if x<0 x , if x ≥ 0 f(x)=max(ax,x) = \begin{cases} ax, & \text {if x<0} \\ x, & \text{if x$\geq$0} \end{cases} f(x)=max(ax,x)={ax,x,if x<0if x0
    原论文中建议a最好小于0.01,但我们在设计的时候a通常会设为0.01。

    函数图像:
    在这里插入图片描述
    理论上Leaky ReLU可以解决上述的dead ReLU现象。

    三、PReLU(parametric ReLU)

    函数公式:

    f ( x ) = { x i x i > 0 α i x i 其 他 f(x)=\begin{cases} x_i & x_i > 0 \\ \alpha_ix_i & 其他 \end{cases} f(x)={xiαixixi>0

    注意:

    • α i \alpha_i αi是可通过反向传播学习到的参数

    函数图像:
    在这里插入图片描述
    理论上也可以避免dead ReLU现象;

    四、RReLU(Randomized ReLU)

    函数公式:
    f ( x ) = m a x ( a x , x ) = { a x , if x<0 x , if x ≥ 0 f(x)=max(ax,x) = \begin{cases} ax, & \text {if x<0} \\ x, & \text{if x$\geq$0} \end{cases} f(x)=max(ax,x)={ax,x,if x<0if x0

    注意:

    • 训练时,a服从均匀分布 U ( l , u ) , l < u U(l, u), l<u U(l,u),l<u and l , u ∈ [ 0 , 1 ) l, u \in[0, 1) l,u[0,1)
    • 测试时,将训练的所有的a取平均值(有点像BN)

    函数图像:
    在这里插入图片描述
    理论上也可以避免dead ReLU现象;

    五、实验结果

    CIFAR-10:
    在这里插入图片描述
    CIFAR-100:
    在这里插入图片描述
    NDSB:
    在这里插入图片描述

    可以看到在三个数据上Leaky ReLU、PReLU、RReLU的表现都要优于当前使用最多的激活函数ReLU。但这仅仅是在小数据集上的表现,更大的数据集更复杂的任务的情况下,还需要更多的实验。

    六、PyTorch实现

    自己代码实现

    class ActivateFunc():
        def __init__(self, x, b=None, lamb=None, alpha=None, a=None):
            super(ActivateFunc, self).__init__()
            self.x = x
            self.b = b
            self.lamb = lamb
            self.alpha = alpha
            self.a = a
            
        def ReLU(self):
            y = np.where(self.x < 0, 0, self.x)
            y_grad = np.where(self.x < 0, 0, 1)
            return [y, y_grad]
            
        def LeakyReLU(self):   # a大于1,指定a
            y = np.where(self.x < 0, self.x / self.a, self.x)
            y_grad = np.where(self.x < 0, 1 / self.a, 1)
            return [y, y_grad]
    
        def PReLU(self):    # a大于1,指定a
            y = np.where(self.x < 0, self.x / self.a, self.x)
            y_grad = np.where(self.x < 0, 1 / self.a, 1)
            return [y, y_grad]
    
    class RReLU(Module):
        __constants__ = ['lower', 'upper', 'inplace']
    
        lower: float
        upper: float
        inplace: bool
    
        def __init__(
            self,
            lower: float = 1. / 8,
            upper: float = 1. / 3,
            inplace: bool = False
        ):
            super(RReLU, self).__init__()
            self.lower = lower
            self.upper = upper
            self.inplace = inplace
    
        def forward(self, input: Tensor) -> Tensor:
            return F.rrelu(input, self.lower, self.upper, self.training, self.inplace)
    
        def extra_repr(self):
            inplace_str = ', inplace=True' if self.inplace else ''
            return 'lower={}, upper={}{}'.format(self.lower, self.upper, inplace_str)
    

    调包实现:

    import torch.nn as nn
    
    activation_cfg = {
        # layer_abbreviation: module
        'ReLU': nn.ReLU,
        'LeakyReLU': nn.LeakyReLU,
        'PReLU': nn.PReLU,
        'RReLU': nn.RReLU,
        # 'ReLU6': nn.ReLU6,
        # 'SELU': nn.SELU,
        # 'CELU': nn.CELU
    }
    
    
    def build_activation_layer(cfg):
        """ Build activation layer
        Args:
            cfg (dict): cfg should contain:
                type (str): Identify activation layer type.
                layer args: args needed to instantiate a activation layer.
        Returns:
            layer (nn.Module): Created activation layer
        """
        assert isinstance(cfg, dict) and 'type' in cfg
        cfg_ = cfg.copy()
    
        layer_type = cfg_.pop('type')
        if layer_type not in activation_cfg:
            raise KeyError('Unrecognized activation type {}'.format(layer_type))
        else:
            activation = activation_cfg[layer_type]
            if activation is None:
                raise NotImplementedError
    
        layer = activation(**cfg_)
        return layer
    
    展开全文
  • 激活函数ReLU、Leaky ReLU、PReLU和RReLU

    万次阅读 多人点赞 2018-05-13 16:16:11
     RReLU中的aji是一个在一个给定的范围内随机抽取的值,这个值在测试环节就会固定下来。     转载:http://i.ifeng.com/lady/vnzq/news?m=1&aid=124686188&mid=2EjJF3&all=1&p=2 关于激活函数比较优秀的...

    “激活函数”能分成两类——“饱和激活函数”和“非饱和激活函数”。

    sigmoid和tanh是“饱和激活函数”,而ReLU及其变体则是“非饱和激活函数”。使用“非饱和激活函数”的优势在于两点:
        1.首先,“非饱和激活函数”能解决所谓的“梯度消失”问题。
        2.其次,它能加快收敛速度。
        Sigmoid函数需要一个实值输入压缩至[0,1]的范围
        σ(x) = 1 / (1 + exp(−x))
        tanh函数需要讲一个实值输入压缩至 [-1, 1]的范围
        tanh(x) = 2σ(2x) − 1
    ReLU
        ReLU函数代表的的是“修正线性单元”,它是带有卷积图像的输入x的最大函数(x,o)。ReLU函数将矩阵x内所有负值都设为零,其余的值不变。ReLU函数的计算是在卷积之后进行的,因此它与tanh函数和sigmoid函数一样,同属于“非线性激活函数”。这一内容是由Geoff Hinton首次提出的。

    ReLU 的缺点:
    训练的时候很”脆弱”,很容易就”die”了
    例如,一个非常大的梯度流过一个 ReLU 神经元,更新过参数之后,这个神经元再也不会对任何数据有激活现象了,那么这个神经元的梯度就永远都会是 0.
    如果 learning rate 很大,那么很有可能网络中的 40% 的神经元都”dead”了。
    ELUs
        ELUs是“指数线性单元”,它试图将激活函数的平均值接近零,从而加快学习的速度。同时,它还能通过正值的标识来避免梯度消失的问题。根据一些研究,ELUs分类精确度是高于ReLUs的。下面是关于ELU细节信息的详细介绍:

        

     

    Leaky ReLUs
        ReLU是将所有的负值都设为零,相反,Leaky ReLU是给所有负值赋予一个非零斜率。Leaky ReLU激活函数是在声学模型(2013)中首次提出的。以数学的方式我们可以表示为:

        ai是(1,+∞)区间内的固定参数。

    参数化修正线性单元(PReLU)
        PReLU可以看作是Leaky ReLU的一个变体。在PReLU中,负值部分的斜率是根据数据来定的,而非预先定义的。作者称,在ImageNet分类(2015,Russakovsky等)上,PReLU是超越人类分类水平的关键所在。
    随机纠正线性单元(RReLU)
        “随机纠正线性单元”RReLU也是Leaky ReLU的一个变体。在RReLU中,负值的斜率在训练中是随机的,在之后的测试中就变成了固定的了。RReLU的亮点在于,在训练环节中,aji是从一个均匀的分布U(I,u)中随机抽取的数值。形式上来说,我们能得到以下结果:

        

    总结
        下图是ReLU、Leaky ReLU、PReLU和RReLU的比较:

        

     

        PReLU中的ai是根据数据变化的;

        Leaky ReLU中的ai是固定的;

        RReLU中的aji是一个在一个给定的范围内随机抽取的值,这个值在测试环节就会固定下来。

     

     转载:http://i.ifeng.com/lady/vnzq/news?m=1&aid=124686188&mid=2EjJF3&all=1&p=2

    关于激活函数比较优秀的博客

    1、https://blog.csdn.net/Leo_Xu06/article/details/53708647

    (补充,对于sigmoid函数,权重w越大,曲线越倾斜)

    2、https://blog.csdn.net/guorongronghe/article/details/70174476

    3、https://blog.csdn.net/weixin_42057852/article/details/84644348

    4、https://blog.csdn.net/u011684265/article/details/78039280

    展开全文
  • 深度学习的激活函数 :加粗样式sigmoid、tanh、ReLU 、Leaky Relu、RReLU 激活函数可以分为两大类 : 饱和激活函数: sigmoid、 tanh 非饱和激活函数: ReLU 、Leaky Relu 、ELU【指数线性单元】、PReLU【参数化的...

    深度学习的激活函数 :sigmoid、tanh、ReLU 、Leaky Relu、RReLU

    激活函数可以分为两大类 :
    饱和激活函数: sigmoid、 tanh
    非饱和激活函数: ReLU 、Leaky Relu 、ELU【指数线性单元】、PReLU【参数化的ReLU 】、RReLU【随机ReLU】
    在这里插入图片描述
    相对于饱和激活函数,使用“非饱和激活函数”的优势在于两点:
    1.首先,“非饱和激活函数”能解决深度神经网络【层数非常多!!】的“梯度消失”问题,浅层网络【三五层那种】才用sigmoid 作为激活函数。
    2.其次,它能加快收敛速度。

    目录

    1. sigmoid 函数 (以前最常用)

    2. tanh (双曲正切函数 ;Hyperbolic tangent function)

    3. relu (Rectified linear unit; 修正线性单元 )

    4. Leaky Relu (带泄漏单元的relu )

    5. RReLU(随机ReLU)

    1 sigmoid函数

    在这里插入图片描述在这里插入图片描述
    该函数具有如下的特性:当x趋近于负无穷时,y趋近于0;当x趋近于正无穷时,y趋近于1;当x= 0时,y=0.5.
    优点:
    1.Sigmoid函数的输出映射在(0,1)之间,单调连续,输出范围有限,优化稳定,可以用作输出层。
    2.求导容易,处处可导,导数为:f′(x)=f(x)(1−f(x))
    缺点:
    1.由于其软饱和性,容易产生梯度消失,导致训练出现问题。
    2.其输出并不是以0为中心的。

    2 tanh函数

    tanh是双曲函数中的一个,tanh()为双曲正切。在数学中,双曲正切“tanh”是由基本双曲函数双曲正弦和双曲余弦推导而来。
    在这里插入图片描述其实tanh(x)=2sigmoid(2x)-1

    特点

    函数:y=tanh x;
    定义域:R
    值域:(-1,1)。
    y=tanh x是一个奇函数,其函数图像为过原点并且穿越Ⅰ、Ⅲ象限的严格单调递增曲线,其图像被限制在两水平渐近线y=1和y=-1之间。
    在这里插入图片描述
    在这里插入图片描述

    3 ReLU、LReLU、PReLU

    ReLu
    在这里插入图片描述
    tensorflow中:tf.nn.relu(features, name=None)

    LReLU (Leaky-ReLU)
    在这里插入图片描述
    其中aiai是固定的。ii表示不同的通道对应不同的aiai.
    tensorflow中:tf.nn.leaky_relu(features, alpha=0.2, name=None)

    PReLU
    在这里插入图片描述
    其中aiai是可以学习的的。如果ai=0ai=0,那么 PReLU 退化为ReLU;如果 aiai是一个很小的固定值(如ai=0.01ai=0.01),则 PReLU 退化为 Leaky ReLU(LReLU)。
    PReLU 只增加了极少量的参数,也就意味着网络的计算量以及过拟合的危险性都只增加了一点点。特别的,当不同 channels 使用相同的aiai时,参数就更少了。BP 更新aiai时,采用的是带动量的更新方式(momentum)。
    tensorflow中:没找到啊!

    展开全文
  • 1.22.Linear常用激活函数 1.22.1.ReLU torch.nn....1.22.2.RReLU torch.nn.RReLU() 1.22.3.LeakyReLU torch.nn.LeakyReLU() 1.22.4.PReLU torch.nn.PReLU() 1.22.5.Sofplus torch.nn.Softplus() 1.22.6.ELU torch.nn.EL

    转自:https://www.pianshen.com/article/33331174884/

    1.22.Linear常用激活函数
    1.22.1.ReLU torch.nn.ReLU()
    1.22.2.RReLU torch.nn.RReLU()
    1.22.3.LeakyReLU torch.nn.LeakyReLU()
    1.22.4.PReLU torch.nn.PReLU()
    1.22.5.Sofplus torch.nn.Softplus()
    1.22.6.ELU torch.nn.ELU()
    1.22.7.CELU torch.nn.CELU()
    1.22.8.SELU torch.nn.SELU()
    1.22.9.GELU torch.nn.GELU()
    1.22.10.ReLU6 torch.nn.ReLU6()
    1.22.11.Sigmoid torch.nn.Sigmoid()
    1.22.12.Tanh torch.nn.Tanh()
    1.22.13.Softsign torch.nn.Softsign()
    1.22.14.Hardtanh torch.nn.Hardtanh()
    1.22.15.Threshold torch.nn.Threshold()
    1.22.16.Tanhshrink torch.nn.Tanhshrink()
    1.22.17.Softshrink torch.nn.Softshrink()
    1.22.18.Hardshrink torch.nn.Hardshrink()
    1.22.19.LogSigmoid torch.nn.LogSigmoid()
    1.22.20.Softmin torch.nn.Softmin()
    1.22.21.Softmax torch.nn.Softmax()
    1.22.22.LogSoftmax torch.nn.LogSoftmax()

    1.22.Linear常用激活函数

    1.22.1.ReLU torch.nn.ReLU()

    在这里插入图片描述
    ReLU的函数图示如下:
    在这里插入图片描述

    1.22.2.RReLU torch.nn.RReLU()

    ReLU有很多变种, RReLU是Random ReLU的意思,定义如下:
    在这里插入图片描述
    对RReLU而言, a是一个在给定范围内的随机变量(训练), 在推理时保持不变。同LeakyReLU不同的是,RReLU的a是可以learnable的参数,而LeakyReLU的a是固定的。
    在这里插入图片描述

    1.22.3.LeakyReLU torch.nn.LeakyReLU()

    在这里插入图片描述
    在这里插入图片描述
    这里a是固定值,LeakyReLU的目的是为了避免激活函数不处理负值(小于0的部分梯度为0),通过使用negative slope,其使得网络可以在传递负值部分的梯度,让网络可以学习更多的信息,在一些应用中确实有较大的益处。

    1.22.4.PReLU torch.nn.PReLU()

    在这里插入图片描述
    不同于RReLU的a可以是随机的,PReLU中的a就是一个learnable的参数。
    在这里插入图片描述需要注意的是:上述激活函数(即ReLU、LeakyReLU、PReLU)是尺度不变(scale-invariant)的。

    1.22.5.Sofplus torch.nn.Softplus()

    Softplus作为损失函数在StyleGAN1和2中都得到了使用,下面分别是其表达式和图解。
    在这里插入图片描述
    在这里插入图片描述

    Softplus 是ReLU的光滑近似,可以有效的对输出都为正值的网络进行约束。
    随着β的增加,Softplus与ReLU越来越接近。

    1.22.6.ELU torch.nn.ELU()

    在这里插入图片描述
    在这里插入图片描述
    ELU不同于ReLU的点是,它可以输出小于0的值,使得系统的平均输出为0。因此,ELU会使得模型收敛的更加快速,其变种(CELU , SELU)只是不同参数组合ELU。

    1.22.7.CELU torch.nn.CELU()

    跟ELU相比,CELU是将ELU中的exp(x)变为exp(x/a)
    在这里插入图片描述
    在这里插入图片描述

    1.22.8.SELU torch.nn.SELU()

    跟ELU相比,SELU是将ELU乘上了一个scala变量。
    在这里插入图片描述
    在这里插入图片描述

    1.22.9.GELU torch.nn.GELU()

    其中(x)Φ(x)是高斯分布的累积分布函数(Cumulative Distribution Function for Gaussian Distribution)。
    在这里插入图片描述

    1.22.10.ReLU6 torch.nn.ReLU6()

    在这里插入图片描述
    在这里插入图片描述
    ReLU6是在ReLU的基础上,限制正值的上限6. one-stage的目标检测网络SSD中用这个损失函数。

    1.22.11.Sigmoid torch.nn.Sigmoid()

    Sigmoid是将数据限制在0到1之间。而且,由于Sigmoid的最大的梯度为0.25,随着使用sigmoid的层越来越多,网络就变得很难收敛。

    因此,对深度学习,ReLU及其变种被广泛使用避免收敛困难的问题。
    在这里插入图片描述
    在这里插入图片描述

    1.22.12.Tanh torch.nn.Tanh()

    Tanh就是双曲正切,其输出的数值范围为-1到1. 其计算可以由三角函数计算,也可以由如下的表达式来得出:
    在这里插入图片描述
    在这里插入图片描述
    Tanh除了居中(-1到1)外,基本上与Sigmoid相同。这个函数的输出的均值大约为0。因此,模型收敛速度更快。注意,如果每个输入变量的平均值接近于0,那么收敛速度通常会更快,原理同Batch Norm。

    1.22.13.Softsign torch.nn.Softsign()

    在这里插入图片描述
    在这里插入图片描述
    同Sigmoid有点类似,但是它比Sigmoid达到渐进线(asymptot n. [数] 渐近线)的速度更慢,有效的缓解了梯度消失的问题(gradient vanishing problem (to some extent).)。

    1.22.14.Hardtanh torch.nn.Hardtanh()

    如下图所示,Hardtanh就是1个线性分段函数[-1, 1],但是用户可以调整下限min_val和上限max_val,使其范围扩大/缩小。
    在这里插入图片描述
    在这里插入图片描述
    当权值保持在较小的范围内时,Hardtanh的工作效果出奇的好。

    1.22.15.Threshold torch.nn.Threshold()

    在这里插入图片描述

    这种Threshold的方式现在很少使用,因为网络将不能传播梯度回来。这也是在60年代和70年代阻止人们使用反向传播的原因,因为当时的科研人员主要使用的是Binary的神经元,即输出只有0和1,脉冲信号。

    1.22.16.Tanhshrink torch.nn.Tanhshrink()

    在这里插入图片描述
    在这里插入图片描述
    除了稀疏编码外,很少使用它来计算潜在变量(latent variable)的值。

    1.22.17.Softshrink torch.nn.Softshrink()

    在这里插入图片描述
    在这里插入图片描述
    这种方式目前也不怎么常用,其目的是通过设置λ,将靠近0的值直接强制归0,由于这种方式对小于0的部分没有约束,所以效果不太好。

    1.22.18.Hardshrink torch.nn.Hardshrink()

    在这里插入图片描述
    在这里插入图片描述
    同Softshrink类似,除了稀疏编码以外,很少被使用。

    1.22.19.LogSigmoid torch.nn.LogSigmoid()

    LogSigmoid是在Sigmoid基础上,wrap了一个对数函数。
    在这里插入图片描述
    在这里插入图片描述
    这种方式用作损失函数比较多

    1.22.20.Softmin torch.nn.Softmin()

    在这里插入图片描述

    将数字变成概率分布,类似Softmax。

    1.22.21.Softmax torch.nn.Softmax()

    在这里插入图片描述

    1.22.22.LogSoftmax torch.nn.LogSoftmax()

    在这里插入图片描述
    同LogSigmoid类似,LogSoftmax用作损失函数比较多

    展开全文
  • 下图是ReLU、Leaky ReLU、PReLU和RReLU的比较:      ReLU,对小于0部分,直接置为0;  Leaky ReLU,对小于0部分,进行这样的转换:y_i=a_i * x_i ,它的a_i是固定的;  PReLU中的a_i 根据数据变化而变化...
  • 目录“饱和激活函数”和“非饱和激活函数”饱和激活函数Sigmoid函数Tanh函数非饱和激活函数ReLU函数ELUs函数Leaky ReLUs参数化修正线性单元(PReLU)随机纠正线性单元(RReLU)总结 “饱和激活函数”和“非饱和激活...
  • 深度学习的激活函数 :sigmoid、tanh、ReLU 、Leaky Relu、RReLU、softsign、softplus:https://www.pianshen.com/article/6147380115/
  • 非饱和激活函数:ReLU 、Leaky Relu 、ELU【指数线性单元】、PReLU【参数化的ReLU 】、RReLU【随机ReLU】 (1)sigmoid 函数 (以前最常用) 参数 α> 0可控制其斜率。sigmoid 将一个实值输入压缩至[0,1]...
  • 非饱和激活函数:ReLU 、Leaky Relu 、ELU【指数线性单元】、PReLU【参数化的ReLU 】、RReLU【随机ReLU】 相对于饱和激活函数,使用“非饱和激活函数”的优势在于两点: 1.首先,“非饱和激活...
  • Logistic 函数 )3.2 Tanh3.3 ReLU( Rectified Linear Unit )3.4 Leaky ReLU与 Parametric ReLU (PReLU)3.5 RReLU ( Randomized Leaky ReLU )3....
  • ReLU、Leaky ReLU、PReLU和RReLU激活函数

    千次阅读 2019-11-07 10:36:43
     RReLU中的aji是一个在一个给定的范围内随机抽取的值,这个值在测试环节就会固定下来。    转载:http://i.ifeng.com/lady/vnzq/news?m=1&aid=124686188&mid=2EjJF3&all=1&p=2 关于激活函数比较优秀的...
  •  RReLU中的aji是一个在一个给定的范围内随机抽取的值,这个值在测试环节就会固定下来。     转载:http://i.ifeng.com/lady/vnzq/news?m=1&aid=124686188&mid=2EjJF3&all=1&p=2 转载于:...
  • RReLU的亮点在于,在训练环节中,aji是从一个均匀的分布U(I,u)中随机抽取的数值。形式上来说,我们能得到以下结果:   6.ELU   7.PRelu PReLU(Parametric Rectified Linear Unit), 顾名思义...
  • 其他基于RELU的变化有:渗漏整流单元(Leaky Relu),参数化整流线性单元(PRelu),ELU,SELU,CRelu,RRelu PRelu 参数化整流线性单元: 在LRelu的基础上将定值0.01变换为 ELU(exponential linear units ...
  • 优点: (1)具有LReLU的全部优点 (2)α并不是根据先验经验确定的,而是在一个给定范围内的均匀分布随机值,在测试环节中被固定下来 RReLU公式: RReLU导数: RReLURReLU_derivatrive对比: 9.ELU(隐层神经元...
  • 来自于Kaggle NDSB Competition,RReLU的亮点在于,在训练过程中,aji是从均匀分布 U(I,u) 中抽取的随机数。形式如下:   在测试过程中,采用所有训练的平均数,我们使用: 论文: ...
  • 深度学习-激活函数:饱和激活函数【Sigmoid、tanh】、非饱和激活函数【ReLU、Leaky ReLU、RReLU、PReLU、ELU、Maxout】 一、激活函数的定义: 二、激活函数的用途 1、无激活函数的神经网络 2、带激活函数的神经网络 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 697
精华内容 278
关键字:

rrelu