精华内容
下载资源
问答
  • 常见复合函数图像
    千次阅读
    2020-12-20 01:39:53

    概述:本道作业题是禄凡闷同学的课后练习,分享的知识点是复函数的图形,指导老师为终老师,涉及到的知识点涵盖:...1等等.只需大致图象,和大致画法(根据原函数就能画出复合函数的...-复函数的图形-数学,下面是禄凡闷作业题的详细。

    题目:...1等等.只需大致图象,和大致画法(根据原函数就能画出复合函数的...-复函数的图形-数学

    反比例函数是双曲线,二次函数是抛物线,一次函数是直线,正余弦是波形,正切有平行于y轴的渐近线.函数可以表示为y=k(f[m(x+n)]+a)的形式,a若大于0,则为f(x)向上平移a个单位(a小于0则向下),n若大于0则为f(x)向左平移n个单位(n小于0则向右),m决定横向伸缩(将横坐标变为原来x的1/│m│倍,若m小于0则整个图像左右反过来),k决定纵向伸缩(将纵坐标变为原来k倍k小于0则图像上下反过来).总之先考虑n,然后是m,之后是a,最后是k,从内向外变.

    但如果是两个复杂函数复合在一起(如y=sin²x),那就只能描点了

    相关例题

    题1:

    函数图象关于一个点对称,应该怎么算新函数图象?题目中是y=x+1/x(X≠0)关于(2,1)对称,求新函数解析式?…求赐教![数学]

    设原图像中任一点A(m,n),A关于(2,1)的对称点B(a,b)在新图像上

    m+a=2*2=4,n+b=1*2=2

    m=4-a,n=2-b

    带入原图像方程2-b=(4-a)+1/(4-a)

    b=a-2-1/(4-a)

    新函数解析式y=x-2-1/(4-x)

    题2:

    .导函数图象画法..比如说随便给个函数f(X)=X^3-3X+1让求极值.这时候要判断极值为0时的两个点是极大还是极小.这道题两个点为+1和-1这时就要考虑(-无穷大,-1)(-1,+1)(+1,正无穷大)这三段的函[数学]

    奇穿偶不穿与导函数无关.举个例子

    画y=(x-1)∧3*(x-3)∧4的图像

    令y=0,则x=1或x=3

    1是奇次幂的解,3是偶次幂的解

    画图像时从右上角下降,遇3不穿x轴,遇1穿过x轴.则画完图像.

    而求导再求极值,导数大于0则递增,小于0则递减.

    而你举的例子,只能求导,与奇穿0偶不穿0无关

    题3:

    必修一习题1.2B组第二题,第三题答案,求函数图象或画的方法也行[数学]

    第二题:

    要求定义域是-3≤x≤8,值域为-1≤y≤2,那么你可以用我们学过的一次函数来表达

    假设为y=kx+b,当x=-3时,y=-1,当

    x=8时,y=2,

    可求得函数为y=3/11*x-2/11

    图象就你自己画吧,记住图象只是-3≤x≤8这一段

    (1)和同学们的图象比较你会发现图象可能会不一样

    (2)因为-3≤x≤8,-1≤y≤2,所以P(x,y)表示的是区域是个矩形,不在图象上的点(根据每个人做图不一样),直线穿过该区域那么在该矩形区域里面除掉直线上的点都不能在图象上

    第三题

    f(x)解析式为:

    当x属于(-2.5,-2)时,y=-3

    当x属于[-2,-1)时,y=-2

    当x属于[-1,0)时,y=-1

    当x属于[0,1)时,y=0

    当x属于[1,2)时,y=1

    当x属于[2,3)时,y=2

    当x=3时,y=3

    图就你自己画吧,是几条平行于x轴的线段,包括(3,3)这个点

    有什么不明白的可以追问

    题4:

    【函数图象画法像y=|1+2x|+|2-x|的图象改怎么画呢】[数学]

    这是一个分段函数

    当x≤-1/2时,y=-(1+2x)+(2-x)=-3x+1

    当-1/2<x<2时,y=1+2x+2-x=x+3

    当2≤x时,y=1+2x+x-2=3x-1

    然后你在坐标系上根据x的范围各自画出这个区间上的图像就可以.

    祝好好学习

    题5:

    【请问这个函数图像该怎么画?高一数学.sinx=0,x∈〔—2分之π,2分之π〕;sinx=0.7841,x∈〔—2分之π,2分之π〕.X的取值该怎么样求?】[数学]

    这个应该是求值,不是画图

    所求的值有表可查

    第一题应该是x=0

    第二题要查表

    思考:

    思考1:复合函数图像怎么画?

    提示:首先确定大的函数图象,那是确定其轨迹的必要条件。 然后看大函数中所包含的函数的图像, 将两个重合。 总之,具体问题,具体解

    思考2:几何画板怎么画复合函数图像f(x)=(x

    提示:几何画板中,函数编辑器不仅仅可以将系统自带的基本函数进行函数编辑,还可以进行复合函数计算,画出复合函数的图象。比如,已知函数f(x)=x3-2x-1,绘制f(x)和f(x2)两个函数的图象。 具体步骤如下: 1.选择“数据”——“新建函数”,“方程”选择...

    思考3:复变函数图像是什么样的

    提示:分析:首先复变函数是以复数作为自变量和因变量的函数,与以前高中所学的函数不太一样。 其次,高中所学的函数很多需要借助图象来直观理解,复变函数内容很广,一般也不说复变函数图象。

    思考4:画复变函数图像需要什么软件,mathematics行不行

    提示:MATLAB可以画出来。mathematics也可以。但是复变函数的自变量z=x+iy组成了二维平面,因变量w=f(z)=u(x,y)+iv(x,y),所以只能把实部和虚部分开作图,分别得到三维空间中的曲面图。例如用MATLAB作函数f(z)=exp(-z^2)*sin(z)的实部u和虚部v关于x和y...

    思考5:求复合函数的图像

    提示:首先这个函数是由1个奇函数x和1个偶函数sin|x|相加得到的,所以是非奇非偶函数,所以A、D选项都不对。 当x<0的时候,y=x+sin(-x)=x-sinx 因为在x=0的附近有|x|>|sinx| 所以x<0的时候,y=x-sinx<0 所以B不对 选C

    更多相关内容
  • 函数 由于现实生活中,函数的自变量和因变量往往是随实际需求而定的。比如研究钟摆长度和摆动速度的函数关系,工程师设计钟摆的时候,可能会将摆动速度定下来然后去研究钟摆的长度;也有可能将钟摆长度先定下来,...

    反函数

    由于现实生活中,函数的自变量和因变量往往是随实际需求而定的。比如研究钟摆长度和摆动速度的函数关系,工程师设计钟摆的时候,可能会将摆动速度定下来然后去研究钟摆的长度;也有可能将钟摆长度先定下来,然后去研究摆动速度。因此提出了反函数的概念。
    若一个函数f(x)上的所有点(a, b),肯定也有(b, a)在函数U(x)上出现,那么f(x)和u(x)称为互为反函数。根据这个定义不难发现,反函数的图像都是关于y = x对称的。

    然后有一系列的常见反函数了解一下,像反正弦,反余弦,反正切。。。熟悉一下图像和性质即可。


    复合函数

    复合是有条件的!
    形如:y = f(u), u = h(x)。其中,h(x)的值域必须与f(u)的定义域交集不等于空
    这样两个函数才能复合。
    然后,复合函数可以不止有两个函数,可以是由很多个函数复合而成
    这两点注意一下即可。
    

    重点:数列的极限!

    数列的极限是后面学习函数极限的基础,是高数上开始时最难理解的部分。通过今天的学习,我也只能说基本弄清楚了数列的概念,数列极限的定义,数列极限的基本运算法则。跟我大一时候比起来已经强不少了,但还不是很熟练。

    首先我们看看这样一个数列:{1 / n}
    毫无疑问,这个数列当n趋近于无穷时,数列的值是趋近于0的。因此,我们叫它有极限,且极限为0。

    看看这个:{ n }
    这个数列,当n趋近于无穷时,数列的值是没有上限的。因此,我们称,这个数列极限不存在。

    所以我们现在可以感性的定义一下数列的极限了。即:当n无限增大的时候,数列元素an的变化趋势。如果an逐渐趋近于一个常数a,那么我们该数列是存在极限a的。

    这个定义貌似很不错,但它仅仅只是一种感性的认识,不是数学语言,它无法进行数学计算。比如说,你能通过这个定义证明{(1 + (1/ n)) ^ n}这个数列的极限吗?很难算出它是等于e的吧
    那么下面我们要用数学语言来定义数列的极限了。

    上图:
    在这里插入图片描述
    这里解释一下,e是一个特别小的正数,如果|xn - a| < e 就代表xn与a的距离无限接近,比所给的任意小的e还要小!那么我们就可以说数列xn极限存在了。那么xn是数列的通项吗?当然不是!它是从第N项开始之后的任意数列的项。
    也就是说,如果对于任意小的正数e,我都可以在某一项(N)之后找到所有的数列元素xn与常数a的距离都小于e,那么我就可以说,数列xn的极限是a。

    其实真正理解了这个定义后,觉得也不难,主要是这个数学语言有点绕人。一定注意
    不等式中的xn不是通项,而是从某一项开始后的所有数列元素
    都要满足|xn - a| < e这个条件!
    

    这个定义通常可用于证明某个数列的极限是不是某个常数!

    因为数列本质上也是定义域为自然数的一个特殊函数,所以数列的极限和函数的极限联系是非常紧密的!一定要理解透彻!

    展开全文
  • 几种常见激活函数(笔记整理)

    万次阅读 2019-02-26 19:15:17
    函数是神经网络中非线性的来源,因为如果去掉这些函数,那么整个网络就只剩下线性运算,线性运算的复合还是线性运算的,最终的效果只相当于单层的线性模型. (1)Sigmoid函数 左端趋近于0,右端趋近于1,且两端...

    激活函数是神经网络中非线性的来源,因为如果去掉这些函数,那么整个网络就只剩下线性运算,线性运算的复合还是线性运算的,最终的效果只相当于单层的线性模型.

    (1)Sigmoid函数

    左端趋近于0,右端趋近于1,且两端都趋于饱和.

    关于函数饱和解释:参考https://www.cnblogs.com/tangjicheng/p/9323389.html

    这里写图片描述

    如果我们初始化神经网络的权值为 [0,1] 之间的随机值,由反向传播算法的数学推导可知,梯度从后向前传播时,每传递一层梯度值都会减小为原来的0.25倍,如果神经网络隐层特别多,那么梯度在穿过多层后将变得非常小接近于0,即出现梯度消失现象;当网络权值初始化为 (1,+∞) (1,+∞)(1,+∞) 区间内的值,则会出现梯度爆炸情况。
    数学分析见文章:https://www.jianshu.com/p/917f71b06499

    Sigmoid 的 output 不是0均值(即zero-centered)。这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入。
    其解析式中含有幂运算,计算机求解时相对来讲比较耗时。对于规模比较大的深度网络,这会较大地增加训练时间.

    (2)Tanh函数

    tanh(x)及其导数的几何图像

    它解决了Sigmoid函数的不是zero-centered输出问题,然而,梯度消失(gradient vanishing)的问题和幂运算的问题仍然存在。

     

    (3) ReLu函数

    relu(x)=max(x,0)

    这里写图片描述

    是个分段线性函数,显然其导数在正半轴为1,负半轴为0,这样它在整个实数域上有一半的空间是不饱和的。相比之下,sigmoid函数几乎全部区域都是饱和的.

    ReLU虽然简单,但却是近几年的重要成果,有以下几大优点:
    1) 解决了gradient vanishing问题 (在正区间)
    2)计算速度非常快,只需要判断输入是否大于0
    3)收敛速度远快于sigmoid和tanh

    ReLu是分段线性函数,它的非线性性很弱,因此网络一般要做得很深。但这正好迎合了我们的需求,因为在同样效果的前提下,往往深度比宽度更重要,更深的模型泛化能力更好。所以自从有了Relu激活函数,各种很深的模型都被提出来了,一个标志性的事件是应该是VGG模型和它在ImageNet上取得的成功.

    ReLU也有几个需要特别注意的问题:
    1)ReLU的输出不是zero-centered
    2)某些神经元可能永远不会被激活(Dead ReLU Problem),导致相应的参数永远不能被更新。有两个主要原因可能导致这种情况产生: (1) 非常不幸的参数初始化,这种情况比较少见 (2) learning rate太高导致在训练过程中参数更新太大,不幸使网络进入这种状态。解决方法是可以采用Xavier初始化方法,以及避免将learning rate设置太大或使用adagrad等自动调节learning rate的算法。

    人们为了解决Dead ReLU Problem,提出了将ReLU的前半段设为αx 非0,通常α=0.01  (  Leaky ReLU函数: f(x)=max(αx,x)  )。为了解决zero-centered问题,提出了ELU (Exponential Linear Units) 函数,f(x)=x  if x>0  otherwise   a(e^x  −1).

    (4) Swish函数(Google大脑团队)

    定义为  swish(x)=x⋅Sigmoid

    图像如下图所示:

    Swish

     

    从图像上来看,Swish函数跟ReLu差不多,唯一区别较大的是接近于0的负半轴区域, Google大脑做了很多实验,结果都表明Swish优于ReLu

    (5) Gated linear units(GLU)激活函数(facebook提出)

    我就是懒了

    参考https://blog.csdn.net/qq_32458499/article/details/81513720

     

     

    还有其他激活函数,如GTU,Maxout等,学海无涯,楫棹莫收.

    参考:https://blog.csdn.net/tyhj_sf/article/details/79932893

    https://spaces.ac.cn/archives/4647

     

                                                手撕(抓)饼是好吃,可是不能多吃

     

    展开全文
  • 常见激活函数及其求导相关知识

    千次阅读 2020-05-31 15:16:10
    函数图像如下: 从图像可以看出,它能够把连续实值映射为0和1之间的输出,特别的,如果是非常大的负数,那么输出就是0;如果是非常大的正数,输出就是1。 Sigmoid 函数有很多局限性: 第一点,在数值的绝对值非常大...

    Sigmoid函数

    Sigmoid函数介绍

    Sigmoid 是常用的非线性的激活函数,公式如下:
    σ ( x ) = 1 1 + e − x \sigma(x)=\frac{1}{1+e^{-x}} σ(x)=1+ex1
    函数图像如下:

    在这里插入图片描述

    从图像可以看出,它能够把连续实值映射为0和1之间的输出,特别的,如果是非常大的负数,那么输出就是0;如果是非常大的正数,输出就是1。

    Sigmoid 函数有很多局限性:

    第一点,在数值的绝对值非常大的情况下,对应的函数图像的部分几乎是一条水平线。这意味着梯度几乎为0,不利于深层网络中梯度的反向传播,容易造成梯度消失。

    第二点,Sigmoid 的输出不是0均值,导致梯度的更新要么都往正方向更新,要么都往负方向更新,导致有一种捆绑的效果,使得收敛缓慢。具体的解释,在文末讨论。

    第三点,式子包含幂运算,计算量很大。

    Sigmoid函数求导

    求导过程及结果如下:
    σ ′ ( x ) = ( 1 1 + e − x ) ′ = e − x ( 1 + e − x ) 2 = 1 + e − x − 1 ( 1 + e − x ) 2 = σ ( x ) ( 1 − σ ( x ) ) \begin{aligned} \sigma^{\prime}(x) &=\left(\frac{1}{1+e^{-x}}\right)^{\prime} \\ &=\frac{e^{-x}}{\left(1+e^{-x}\right)^{2}} \\ &=\frac{1+e^{-x}-1}{\left(1+e^{-x}\right)^{2}} \\ &=\sigma(x)(1-\sigma(x)) \end{aligned} σ(x)=(1+ex1)=(1+ex)2ex=(1+ex)21+ex1=σ(x)(1σ(x))
    函数图像如下:

    在这里插入图片描述

    求导的结果可以看出,导数的最大值为0.25,小于1 ,很容易造成梯度消失。

    tanh 函数

    tanh 函数介绍

    tanh 函数公式如下:
    tanh ⁡ ( x ) = e x − e − x e x + e − x \tanh (x)=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}} tanh(x)=ex+exexex
    图像如下:

    在这里插入图片描述

    tanh 函数决了Sigmoid函数的输出不是0均值,然而,梯度消失和幂运算的问题仍然存在。

    tanh 函数求导

    求导过程如下:
    t a n h ( x ) ′ = ( e x + e − x ) 2 − ( e x − e − x ) 2 ( e x + e − x ) 2 = 1 − ( t a n h ( x ) ) 2 tanh(x)^{\prime}=\frac{(e^{x}+e^{-x})^{2}-(e^{x}-e^{-x})^{2}}{(e^{x}+e^{-x})^{2}}=1-(tanh(x))^{2} tanh(x)=(ex+ex)2(ex+ex)2(exex)2=1(tanh(x))2
    求导后的图像:

    在这里插入图片描述

    Relu函数

    Relu函数介绍

    Relu函数公式如下:
    R e L U ( x ) = { 0 , x ⩽ 0 x , x > 0 ReLU(x)=\begin{cases}{0,} & {x \leqslant 0} \\ {x,} & {x>0}\end{cases} ReLU(x)={0,x,x0x>0
    函数图像如下:

    在这里插入图片描述

    Relu 函数在输出值大于 0 的部分的导数值都大于0,并且不趋近于0,因而梯度下降速度较快。

    Relu 函数在输出值小于 0 的部分的导数值都等于0,此时神经元就不会得到训练,能对网络产生稀疏性,降低过分拟合的概率。

    但是也存在以下问题:

    1. 输出不是0均值
    2. Dead ReLU Problem:因梯度等于0导致失效的神经元不会再被激活

    注:为了解决第二个问题,有人提出了Leaky ReLU激活函数: L e a k y    R e L U ( x ) = m a x ( 0.01 x , x ) Leaky \; ReLU(x) = max(0.01x, x) LeakyReLU(x)=max(0.01x,x),使得小于0的部分有些许梯度。

    尽管ReLU存在这两个问题,ReLU目前仍是最常用的激活函数,在搭建模型的时候推荐优先尝试。

    Relu函数求导

    求导结果如下:
    R e L U ( x ) ′ = { 0 , x ⩽ 0 1 , x > 0 ReLU(x)^{\prime}=\begin{cases}{0,} & {x \leqslant 0} \\ {1,} & {x>0}\end{cases} ReLU(x)={0,1,x0x>0
    函数图像如下:

    在这里插入图片描述

    Softmax函数

    Softmax函数介绍

    对于多分类任务,常用的激活函数是 Softmax 激活函数。使用了Softmax函数的神经网络对应多个输出层神经元 ,如下图所示;

    在这里插入图片描述

    每个输出单元的数值代表该类别的概率 p i p_i pi,数值越大,说明属于该类别可能性越大。

    具体而言,假设倒数第二层的输出值为:
    z i = w i x + b i z_i = w_i x + b_i zi=wix+bi
    假设有K个类别,Softmax函数定义如下:
    S o f t m a x ( z i ) = e z i ∑ i = 1 K e z i ∀ i ∈ 1 … K Softmax(z_i)=\frac{e^{z_i}}{\sum_{i=1}^{K} e^{z_i}} \quad \forall i \in 1 \ldots K Softmax(zi)=i=1Keziezii1K
    则在最后一层使用 Softmax 激活函数后的输出值为:
    h w ( x ) = [ p 1 p 2 ⋮ p K ] = 1 ∑ i = 1 K e z i [ e z 1 e z 2 ⋮ e z K ] h_w(x) = \begin{bmatrix}p_1\\p_2 \\ \vdots \\p_{K} \end{bmatrix} = \frac{1}{\sum_{i=1}^K e^{z_i}} \begin{bmatrix}e^{z_1}\\e^{z_2 } \\ \vdots \\e^{z_K} \end{bmatrix} hw(x)=p1p2pK=i=1Kezi1ez1ez2ezK
    上式结果向量中最大值得对应类别为预测类别。

    Softmax函数求导

    Softmax 的损失函数是预测概率的负对数似然函数:
    L ( w ) = − log ⁡ P ( y ( i ) ∣ x ( i ) ; w ) = − ∏ k = 1 K log ⁡ ( e z i ∑ j = 1 K e z j ) y k = − ∑ k = 1 K y k log ⁡ ( e z k ∑ j = 1 K e z j ) \begin{aligned} L(w) &= - \log P(y^{(i)}|x^{(i)};w) \\ &= -\prod_{k=1}^{K} \log\left(\frac{e^{z_i}}{\sum_{j=1}^K e^{z_j}} \right)^{y_k} \\&=-\sum_{k=1}^K y_k \log\left(\frac{e^{z_k}}{\sum_{j=1}^K e^{z_j}} \right) \end{aligned} L(w)=logP(y(i)x(i);w)=k=1Klog(j=1Kezjezi)yk=k=1Kyklog(j=1Kezjezk)
    注: y k = I { y ( j ) = k } y_k = I\{y^{(j)} = k\} yk=I{y(j)=k} 是指示函数,当 y ( j ) = k y^{(j)} = k y(j)=k,即当第 j j j个样本属于第 k k k个类别时,取值为1,否则为0。 我们的目标是:
    min ⁡ L ( w ) \min L(w) minL(w)
    通过梯度下降法则求解最优参数。

    设第 i i i 个输出为:
    s i = e z i ∑ i = 1 K e z i i = 1 , 2 , … , K s_{i} = \frac{e^{z_i}}{\sum_{i=1}^K e^{z_i}} \quad i=1,2,\ldots,K si=i=1Keziezii=1,2,,K
    针对某一个样本:
    ∂ L ∂ w i = ∂ L ∂ z i ∂ z i ∂ w i ∂ L ∂ b i = ∂ L ∂ z i ∂ z i ∂ b i \begin{aligned} \frac{\partial L}{\partial w_i} &= \frac{\partial L}{\partial z_i} \frac{\partial z_i}{\partial w_i} \\ \frac{\partial L}{\partial b_i} &= \frac{\partial L}{\partial z_i} \frac{\partial z_i}{\partial b_i} \end{aligned} wiLbiL=ziLwizi=ziLbizi
    显然:
    ∂ z i ∂ w i = x ∂ z i ∂ b i = 1 \frac{\partial z_i}{\partial w_i} = x \\ \frac{\partial z_i}{\partial b_i} = 1 wizi=xbizi=1
    所以核心问题是求 ∂ L ∂ z i \frac{\partial L}{\partial z_i} ziL
    ∂ L ∂ z i = ∑ k = 1 K [ ∂ L ∂ s k ∂ s k ∂ z i ] \frac{\partial L}{\partial z_i} = \sum_{k=1}^K \left[ \frac{\partial L}{\partial s_k} \frac{\partial s_k}{\partial z_i} \right] ziL=k=1K[skLzisk]
    其中 ∂ L ∂ s k \frac{\partial L}{\partial s_k} skL为:
    ∂ L ∂ s k = ∂ ( − ∑ k = 1 K y k log ⁡ s k ) ∂ s k = − y k s k \frac{\partial L}{\partial s_k} = \frac{\partial \left(-\sum_{k=1}^K y_k \log s_k \right)}{\partial s_k} = - \frac{y_k}{s_k} skL=sk(k=1Kyklogsk)=skyk
    接下来就是要求 ∂ s k ∂ z i \frac{\partial s_k}{\partial z_i} zisk 了。先来复习一下复合求导公式:
    f ( x ) = g ( x ) h ( x ) f ′ ( x ) = g ′ ( x ) h ( x ) − g ( x ) h ′ ( x ) [ h ( x ) ] 2 f(x) = \frac{g(x)}{h(x)} \\ f'(x) = \frac{g'(x) h(x) - g(x)h'(x)}{[h(x)]^2} f(x)=h(x)g(x)f(x)=[h(x)]2g(x)h(x)g(x)h(x)
    根据 k 与 i 的关系,需要分两种情况讨论:

    (1)当 k ≠ i k \ne i k=i时,那么:
    ∂ s k ∂ z i = ∂ e z k ∑ j = 1 K e z j ∂ z i = − e z k ⋅ e z i ( ∑ j = 1 K e z j ) 2 = − e z k ∑ j = 1 K e z j e z i ∑ j = 1 K e z j = − s k s i \begin{aligned} \frac{\partial s_k}{\partial z_i} &= \frac{\partial \frac{e^{z_k}}{\sum_{j=1}^K e^{z_j}} }{\partial z_i} \\ &= \frac{-e^{z_k}\cdot e^{z_i}}{(\sum_{j=1}^K e^{z_j})^2} \\ &=-\frac{e^{z_k}}{\sum_{j=1}^K e^{z_j}} \frac{ e^{z_i}} {\sum_{j=1}^K e^{z_j}} \\ &= -s_k s_i \end{aligned} zisk=zij=1Kezjezk=(j=1Kezj)2ezkezi=j=1Kezjezkj=1Kezjezi=sksi
    (2)当 k = i k = i k=i时,那么:
    ∂ s k ∂ z i = ∂ s i ∂ z i = ∂ e z i ∑ j = 1 K e z j ∂ z i = e z i ∑ j = 1 K e z j − ( e z i ) 2 ( ∑ j = 1 K e z j ) 2 = e z i ∑ j = 1 K e z j ∑ j = 1 K e z j − e z i ∑ j = 1 K e z j = s i ( 1 − s i ) \begin{aligned} \frac{\partial s_k}{\partial z_i} &= \frac{\partial s_i}{\partial z_i} =\frac{\partial \frac{e^{z_i}}{\sum_{j=1}^K e^{z_j}} }{\partial z_i} \\ &= \frac{e^{z_i}\sum_{j=1}^K e^{z_j} - (e^{z_i})^2}{(\sum_{j=1}^K e^{z_j})^2} \\ &=\frac{e^{z_i}}{\sum_{j=1}^K e^{z_j}} \frac{\sum_{j=1}^K e^{z_j} - e^{z_i}} {\sum_{j=1}^K e^{z_j}} \\ &= s_i(1-s_i) \end{aligned} zisk=zisi=zij=1Kezjezi=(j=1Kezj)2ezij=1Kezj(ezi)2=j=1Kezjezij=1Kezjj=1Kezjezi=si(1si)
    所以:
    ∂ L ∂ z i = ∑ k = 1 K [ ∂ L ∂ s k ∂ s k ∂ z i ] = ∑ k = 1 K [ − y k s k ∂ s k ∂ z i ] = − y i s i ∂ s i ∂ z i + ∑ k = 1 , k ≠ i K [ − y k s k ∂ s k ∂ z i ] = − y i s i s i ( 1 − s i ) + ∑ k = 1 , k ≠ i K [ − y k s k ⋅ − s k s l ] = y i ( s i − 1 ) + ∑ k = 1 , k ≠ i K y k s i = − y i + y i s i + ∑ k = 1 , k ≠ i K y k s i = − y i + s i ∑ k = 1 K y k \begin{array}{l} \frac{\partial \mathrm{L}}{\partial \mathrm{z}_{i}}=\sum_{k=1}^{K}\left[\frac{\partial L}{\partial s_{k}} \frac{\partial s_{k}}{\partial z_{i}}\right]=\sum_{k=1}^{K}\left[-\frac{y_{k}}{s_{k}} \frac{\partial s_{k}}{\partial z_{i}}\right] \\ =-\frac{y_{i}}{s_{i}} \frac{\partial s_{i}}{\partial z_{i}}+\sum_{k=1, k \neq i}^{K}\left[-\frac{y_{k}}{s_{k}} \frac{\partial s_{k}}{\partial z_{i}}\right] \\ =-\frac{y_{i}}{s_{i}} s_{i}\left(1-s_{i}\right)+\sum_{k=1, k \neq i}^{K}\left[-\frac{y_{k}}{s_{k}} \cdot-s_{k} s_{l}\right] \\ =y_{i}\left(s_{i}-1\right)+\sum_{k=1, k \neq i}^{K} y_{k} s_{i} \\ =-y_{i}+y_{i} s_{i}+\sum_{k=1, k \neq i}^{K} y_{k} s_{i} \\ =-y_{i}+s_{i} \sum_{k=1}^{K} y_{k} \end{array} ziL=k=1K[skLzisk]=k=1K[skykzisk]=siyizisi+k=1,k=iK[skykzisk]=siyisi(1si)+k=1,k=iK[skyksksl]=yi(si1)+k=1,k=iKyksi=yi+yisi+k=1,k=iKyksi=yi+sik=1Kyk
    对于某个样本 x x x对应的标签 y y y为一个向量: y = ( y 1 , y 2 , … , y K ) y=(y_1,y_2,\ldots,y_K) y=(y1,y2,,yK),其中只有一个元素是1,如 y = ( 1 , 0 , … , 0 ) y=(1,0,\ldots,0) y=(1,0,,0) 。所以有: ∑ k = 1 K y k = 1 \sum_{k=1}^{K} y_{k} = 1 k=1Kyk=1,所以:
    ∂ L ∂ z i = s i − y i \frac{\partial \mathrm{L}}{\partial \mathrm{z}_{i}}= s_i - y_i ziL=siyi
    所以最终结果为:
    ∂ L ∂ w i = ( s i − y i ) x ∂ L ∂ b i = s i − y i \frac{\partial L}{\partial w_i} = (s_i - y_i)x \\ \frac{\partial L}{\partial b_i} = s_i - y_i wiL=(siyi)xbiL=siyi
    所以,更新法则如下:
    w i = w i − η ( s i − y i ) x b i = b i − η ( s i − y i ) w_i = w_i - \eta (s_i - y_i)x \\ b_i = b_i - \eta (s_i - y_i) \\ wi=wiη(siyi)xbi=biη(siyi)
    直至收敛为之。

    激活函数作用

    先看个例子,比如我们需要给下面的图像进行二分类,也就是找出圆圈和三角形的边界:

    在这里插入图片描述

    如果没有激活函数,我们训练出来的分类器是线性的,它的效果也许会是这样:

    在这里插入图片描述

    始终无法完美的完成任务。训练出来的模型只是把输入的数据线性组合后再输出,即使你有多个隐藏层,本质上也是在进行线性计算,其结果仍然是一个线性函数,无法完成复杂的分类任务。

    然而,如果我们训练出来的模型是非线性的,那么它的分类效果可能是这样的:

    在这里插入图片描述

    要实现这样的分类效果,就需要借助非线性的激活函数(比如 tanh函数)将每一层的输出 z 进行一次非线性的变换。这样可以加入非线性因素,让原本的直线(或者平面)“扭曲”起来,达到拟合复杂的曲线(或者曲面)的效果,这样就提高神经网络对模型的表达能力,让神经网络的模型任意逼近复杂的函数。显然非线性拟合的效果要比线性拟合的效果好的多。

    激活函数的选择

    1. sigmoid 激活函数:除了输出层是一个二分类问题基本很少用它。
    2. tanh 激活函数: tanh 是非常优秀的, 几乎适合所有场合。
    3. ReLu 激活函数:最常用的默认函数,如果不确定用哪个激活函数,就使用 ReLu 或者Leaky ReLu。

    均值不为零问题

    假设输入与输出的关系为:
    f ( x ⃗ ; w ⃗ , b ) = f ( z ) = f ( ∑ i w i x i + b ) . f(\vec x; \vec w, b) = f(z) = f\Bigl(\sum_iw_ix_i + b\Bigr). f(x ;w ,b)=f(z)=f(iwixi+b).
    其中 f f f是激活函数。进而计算 w i w_i wi的梯度,于是有:
    ∂ L ∂ w i = ∂ L ∂ f ∂ f ∂ z ∂ z ∂ w i = x i ⋅ ∂ L ∂ f ∂ f ∂ z . \frac{\partial L}{\partial w_i} = \frac{\partial L}{\partial f}\frac{\partial f}{\partial z}\frac{\partial z}{\partial w_i} = x_i \cdot \frac{\partial L}{\partial f}\frac{\partial f}{\partial z}. wiL=fLzfwiz=xifLzf.
    发现梯度值包含 ∂ L ∂ f ∂ f ∂ z \frac{\partial L}{\partial f}\frac{\partial f}{\partial z} fLzf,如果我们使用的激活函数是Sigmoid函数,那么 ∂ L ∂ f ∂ f ∂ z \frac{\partial L}{\partial f}\frac{\partial f}{\partial z} fLzf这一项永远是正数,于是梯度的更新方向永远都被输入值 x i x_i xi的正负号决定了,每次迭代都只能向着固定的方向进行梯度下降,不利于收敛,也就降低了训练的速度。

    参考文章:

    1. 深度学习中的激活函数介绍

    2. softmax回归详解

    3. 谈谈激活函数以零为中心的问题

    展开全文
  • 高等数学(二)函数

    2022-04-04 01:44:17
    取整函数 设x为任意实数, 不超过x的最大整数称为x的整数部分 , 即为[x] y=[x]成为取整函数 复合函数 设y= f(u)的定义域为Df, u=g(x)的定义域为Dg, 值域为Rg, 若 Df ∩ Rg ≠ Ø , 则称函数 y = f[g(x)]为函数 y= f(u...
  • 这部分封装的代码,能快速对散点图,进行 一元一次线性函数拟合,指数、幂函数、S函数、生长、对数、复合函数、逆函数 等几种函数的拟合 ,选取R2最大的函数作为最后的拟合函数。
  • 对勾函数与分式函数

    千次阅读 2020-12-22 11:36:15
    分式函数是高中非常常见的一类函数,对勾函数是分式函数的特例,本文重点在于如何画出分式函数图象,有了图象,各种问题都可以迎刃而解.分式函数形如$f(x)=\dfrac {m(x)}{n(x)}$,其中$m(x),n(x)$都是多项式函数...
  • 函数的对称性

    万次阅读 2020-12-24 11:10:11
    函数的对称性:y=f(|x|)是偶函数,它关于y轴对称,y=|f(x)|是把x轴下方的图像对称到x轴的上方,但无法判断是否具备对称性。例如,y=|lnx|没有对称性,而y=|sinx|却有对称性。函数的对称性公式推导1.对称性f(x+a)=f(b...
  • 图像分割中的损失函数分类和汇总

    千次阅读 2020-08-26 01:42:07
    损失函数是最优化目标的一种代表,大多数情况下,我们无法直接用最优化目标,故用损失函数来替代。因此,如何选择一个损失函数,以让他和最优化目标更为接近显得极为重要。 更多文献综述及文献回顾,请参阅: ...
  • 文章目录1、函数的概念2、函数的特性2.1、函数的有界性2.2、函数的单调性2.3、函数的奇偶性2.4、函数的周期性3、反函数和复合函数3.1、反函数3.2、复合函数4、函数的运算5、初等函数 1、函数的概念 定义:设数集D⊂...
  • 点击上方“AI算法修炼营”,选择“星标”公众号精选作品,第一时间送达这是一篇关于图像分割损失函数的总结,具体包括:Binary Cross EntropyWeighted Cross E...
  • LaTeX函数、符号及特殊字符

    千次阅读 2020-07-07 01:25:27
    LaTeX函数、符号及特殊字符 声调 语法 效果 语法 效果 语法 效果 \bar{x} \acute{\eta} \check{\alpha} \grave{\eta} \breve{a} \ddot{y} \dot{x} \hat{\alpha} \tilde{\iota} 函数 语法 ...
  • 连续函数(二)

    2022-01-05 01:31:23
    1.间断点是函数不连续的点,包括:左右极限存在且相等,左右极限存在但不等,左右极限至少有一个不存在2.左右极限相等但不等于该点函数取值或函数在该点无定义为可去间断点3.左右极限存在但不相等...
  • 1. sigmoid函数 sigmoid函数,也就是s型曲线函数,如下: 函数:f(z)=11+e−zf(z)=\frac{1}{1+e^{-z}}f(z)=1+e−z1​ 导数:f′(z)=f(z)(1−f...上面是我们常见的形式,虽然知道这样的形式,也知道计算流程,不够感觉并
  • 映射与函数(二)

    2021-05-23 00:50:02
    1.函数是实数域到实数域的一种特殊的映射2.常数函数、幂函数、指数函数、对数函数、三角和反三角函数是六种基本初等函数3.由基本初等函数经过有限次四则运算和复合运算所产生的函数称为初等函数4...
  • 函数图像的一种简单近似在学校除了上课写作业吃饭睡觉就没有其它活动了,这种环境使我在吃饱之后可以想想别的。本周想想别的的结果是一种函数图像的简单近似。本文将探讨一种递归求解复合表达式的算法,以及一种在...
  • latex函数

    千次阅读 2019-11-13 08:55:59
    函数、符号及特殊字符 声调 语法 效果 语法 效果 语法 效果 \bar{x} \acute{\eta} \check{\alpha} \grave{\eta} \breve{a} \ddot{y} \dot{x} \hat{\alpha} \tilde{\iota} 函数 语法 效果 ...
  • Python 如何实现绘制函数图像
  • 线性整流函数(Rectified Linear Unit, ReLU),又称修正线性单元,是一种人工神经网络中常用的激活函数(activation function),通常指代以斜坡函数及其变种为代表的非线性函数。 很显然,在正区域内,斜率为1,...
  • 在深度学习中,输入值和矩阵的运算是线性的,而多个线性函数的组合仍然是线性函数,对于多个隐藏层的神经网络,如果每一层都是线性函数,那么这些层在做的就只是进行线性计算,最终效果和一个隐藏层相当!...
  • 常见图像滤波方法

    千次阅读 2021-08-27 16:13:44
    0 前言 ...图像滤波,即在尽量保留图像细节特征的条件下对目标图像的噪声进行抑制,是图像预处理中不可缺少的操作,其处理效果的好坏将直接影响到后续图像处理和分析的有效性和可靠性。 参考文章: ...
  • 1. sigmoid函数
  • 图像加密学习综述
  • 这一节主要学习凸函数的定义以及性质。了解保凸运算,以及上镜图与下水平集等。这些基础知识看似零乱,然而却是后面的基础。特别是,在实际应用中如果我们能把一个问题转化为凸优化问题,是非常好的一步。而能够这样...
  • 本文介绍了一些与函数相关的概念,包括运算封闭、数域、陪域、值域、满射、单射、双射、映射、恒等函数、初等函数等知识。
  • 函数 — 高等数学

    2020-12-14 22:16:27
    文章目录考点一:求函数的定义域一丶求具体函数的定义域二丶求抽象函数的定义域考点二:求函数的值域考点三:相同函数的判断考点四:求函数表达式考点五:函数的四种性质考点六:求反函数 考点一:求函数的定义域 一...
  • 1.判断具体函数单调性的方法对于给出具体解析式的函数,由函数单调性的定义出发,本文列举的判断函数单调性的方法有如下几种:1.1 定义法单调函数的定义:一般地,设f(x)为定义在D上的函数。若对任何x1、x2∈D,当x1...
  • 分段函数教案

    2021-05-23 00:52:27
    与《分段函数教案》相关的范文第2课时 分段函数 导入新课 思路1. 当x>1时,f(x)=x+1;当x≤1时,f(x)=-x,请写出函数f(x)的解析式. 这个函数的解析式有什么特点?教师指出本节课题. 思路2. 化简函数y=|x|的解析式, ...
  • 数字图像处理c++ opencv(VS2019 opencv4.53)持续更新 一、原理 1.概率密度函数及示意图灰度分布表示曲线 2.高斯随机数的产生 Box-Muller 算法:先得到服从均匀分布的随机数,再将服从均匀分布的随机数转变为...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 7,173
精华内容 2,869
热门标签
关键字:

常见复合函数图像