-
2021-11-25 00:26:01
- 常数和基本初等函数的导数公式
- ( C ) ′ = 0 (C)'=0 (C)′=0
- ( x μ ) ′ = μ x μ − 1 (x^\mu)'=\mu x^{\mu-1} (xμ)′=μxμ−1
- ( sin x ) ′ = cos x (\sin x)'=\cos x (sinx)′=cosx
- ( cos x ) ′ = − sin x (\cos x)'=-\sin x (cosx)′=−sinx
- ( tan x ) ′ = sec 2 x (\tan x)'=\sec^2x (tanx)′=sec2x
- ( cot x ) ′ = − csc 2 x (\cot x)'=-\csc^2 x (cotx)′=−csc2x
- ( sec x ) ′ = sec x tan x (\sec x)'=\sec x\tan x (secx)′=secxtanx
- ( csc x ) ′ = − csc x cot x (\csc x)'=-\csc x\cot x (cscx)′=−cscxcotx
- ( a x ) ′ = a x ln a ( a > 0 , a ≠ 1 ) (a^x)'=a^x\ln a(a>0,a\ne 1) (ax)′=axlna(a>0,a=1)
- ( e x ) ′ = e x (e^x)'=e^x (ex)′=ex
- ( log a x ) ′ = 1 x ln a ( a > 0 , a ≠ 1 ) (\log_ax)'=\dfrac{1}{x\ln a}(a>0,a\ne 1) (logax)′=xlna1(a>0,a=1)
- ( ln x ) ′ = 1 x (\ln x)'=\dfrac{1}{x} (lnx)′=x1
- ( arcsin x ) ′ = 1 1 − x 2 (\arcsin x)'=\dfrac{1}{\sqrt{1-x^2}} (arcsinx)′=1−x21
- ( arccos x ) ′ = − 1 1 − x 2 (\arccos x)'=-\dfrac{1}{\sqrt{1-x^2}} (arccosx)′=−1−x21
- ( arctan x ) ′ = 1 1 + x 2 (\arctan x)'=\dfrac{1}{1+x^2} (arctanx)′=1+x21
- ( a r c c o t x ) ′ = − 1 1 + x 2 (\newcommand{\arccot}{\mathrm{arccot}\,}\arccot x)'=-\dfrac{1}{1+x^2} (arccotx)′=−1+x21
- 函数的和、差、积、商的求导法则
设 u = u ( x ) , v = v ( x ) u=u(x),v=v(x) u=u(x),v=v(x)都可导,则
(1) ( u ± v ) ′ = u ′ ± v ′ (u\pm v)'=u'\pm v' (u±v)′=u′±v′
(2) ( C u ) ′ = C u ′ ( C 是 常 数 ) (Cu)'=Cu'(C是常数) (Cu)′=Cu′(C是常数)
(3) ( u v ) ′ = u ′ v + u v ′ (uv)'=u'v+uv' (uv)′=u′v+uv′
(4) ( u v ) ′ = u ′ v − u v ′ v 2 ( v ≠ 0 ) (\dfrac{u}{v})'=\dfrac{u'v-uv'}{v^2}(v\ne 0) (vu)′=v2u′v−uv′(v=0) - 反函数的求导法则
设 x = f ( y ) x=f(y) x=f(y)在区间 I y I_y Iy内单调、可导且 f ′ ( y ) ≠ 0 f'(y)\ne0 f′(y)=0,则它的反函数 y = f − 1 ( x ) y=f^{-1}(x) y=f−1(x)在 I x = f ( I y ) I_x=f(I_y) Ix=f(Iy)内也可导,且 [ f − 1 ( x ) ] ′ = 1 f ′ ( y ) 或 d y d x = 1 d x d y [f^{-1}(x)]'=\frac{1}{f'(y)}或\frac{dy}{dx}=\frac{1}{\dfrac{dx}{dy}} [f−1(x)]′=f′(y)1或dxdy=dydx1 - 复合函数的求导法则
设 y = f ( u ) y=f(u) y=f(u),而 u = g ( x ) u=g(x) u=g(x)且 f ( x ) f(x) f(x)及 g ( x ) g(x) g(x)都可导,则复合函数 y = f [ g ( x ) ] y=f[g(x)] y=f[g(x)]的导数为 d y d x = d y d u ⋅ d u d x 或 y ′ ( x ) = f ′ ( u ) ⋅ g ′ ( x ) \frac{dy}{dx}=\frac{dy}{du}·\frac{du}{dx}或y'(x)=f'(u)·g'(x) dxdy=dudy⋅dxdu或y′(x)=f′(u)⋅g′(x)
更多相关内容 -
Tensor求导法则
2020-12-31 09:46:52目前来说,我在市面上还没找到对于高维Tensor求导法则的详细介绍。比如说推导CNN的时候,必须用kronecker product来回折腾。对于RNN,则干脆就求不出来。这里介绍一个通用的资源 -
矩阵 向量求导法则
2017-04-05 20:16:33机器学习数学基础,矩阵 向量求导法则必会 -
常见函数求导及求导法则
2020-03-02 21:15:35于是我们有 (lnx)′=1x(\ln x)'=\frac{1}{x}(lnx)′=x1 函数求导法则: 定理:如果函数 u=u(x),v=v(x)u=u(x),v=v(x)u=u(x),v=v(x) 在 xxx 均具有导数,那么它们的和,差,积,商(分母不为0),都在 xxx 点具有...-
函数连续:
若 f ( x ) f(x) f(x) 满足, lim x → 0 [ f ( x 0 + Δ x ) − f ( x 0 ) ] = 0 \lim_{x\to \ 0}[f(x_0+\Delta x)-f(x_0)]=0 x→ 0lim[f(x0+Δx)−f(x0)]=0
则成 f ( x ) f(x) f(x) 在 x 0 x_0 x0 连续 -
定义:
设函数 f ( x ) f(x) f(x) 在点 x 0 x_0 x0 的某个邻域有定义,当自变量 x x x 在 x 0 x_0 x0 取得增量 Δ x \Delta x Δx,对应自变量取得增量 Δ y \Delta y Δy,若 lim Δ x → 0 Δ y Δ x \lim_{\Delta x\to0 }\frac{\Delta y}{\Delta x} limΔx→0ΔxΔy 存在,那么称函数 y = f ( x ) y=f(x) y=f(x) 在 x 0 x_0 x0 处可导,并将这个极限称做 y = ( x ) y=(x) y=(x) 在 x 0 x_0 x0 处的导数,记为 f ′ ( x 0 ) f'(x_0) f′(x0)
f ′ ( x 0 ) = lim Δ x → 0 f ( x 0 + Δ x ) − f ( x 0 ) Δ x f'(x_0)=\lim_{\Delta x\to 0}\frac{f(x_0+\Delta x)-f(x_0)}{\Delta x} f′(x0)=Δx→0limΔxf(x0+Δx)−f(x0) -
常用函数求导
-
常数函数 f ( x ) = C f(x)=C f(x)=C, f ′ ( x ) = 0 f'(x)=0 f′(x)=0
-
f ( x ) = x n ( n ∈ N ∗ ) f(x)=x^n(n\in N^{*}) f(x)=xn(n∈N∗)
当 n = 1 n=1 n=1 时, f ( x ) = 1 f(x)=1 f(x)=1
当 n > 1 n>1 n>1 时,
f ′ ( x ) = lim Δ x → 0 f ( x + Δ x ) − f ( x ) Δ x = lim Δ x → 0 ( x + Δ x ) n − x n Δ x = lim Δ x → 0 n x n − 1 + ( n 2 ) x n − 2 Δ x + ⋯ + Δ x n − 1 = n x n − 1 f'(x)=\lim_{\Delta x\to 0}\frac{f(x+\Delta x)-f(x)}{\Delta x}\\ =\lim_{\Delta x\to 0}\frac{(x+\Delta x)^n-x^n}{\Delta x}\\ =\lim_{\Delta x\to 0}nx^{n-1}+\binom{n}{2}x^{n-2}\Delta x+\dots +\Delta x^{n-1}=nx^{n-1} f′(x)=Δx→0limΔxf(x+Δx)−f(x)=Δx→0limΔx(x+Δx)n−xn=Δx→0limnxn−1+(2n)xn−2Δx+⋯+Δxn−1=nxn−1 -
幂函数 f ( x ) = x μ ( μ ∈ R ) f(x)=x^{\mu}(\mu\in R) f(x)=xμ(μ∈R),设 x x x 在 f ( x ) f(x) f(x) 的定义域内且 x ≠ 0 x\neq 0 x=0
引理1:
lim x → 0 l o g a ( 1 + x ) x = lim x → 0 l o g a ( 1 + x ) 1 x = 1 ln ( a ) \lim_{x\to 0}\frac{log_a(1+x)}{x}=\lim_{x\to 0}log_a(1+x)^{\frac{1}{x}}=\frac{1}{\ln (a)} x→0limxloga(1+x)=x→0limloga(1+x)x1=ln(a)1引理2:
lim x → 0 ( 1 + x ) μ − 1 x = lim x → 0 ( 1 + x ) μ − 1 ln ( 1 + x ) μ ∗ μ ln ( 1 + x ) x lim t → 0 t ln ( 1 + t ) ∗ lim x → 0 μ ln ( 1 + x ) x = μ \lim_{x\to0}\frac{(1+x)^{\mu}-1}{x}\\ = \lim_{x\to 0}\frac{(1+x)^{\mu}-1}{\ln (1+x)^{\mu}}*\frac{\mu \ln (1+x)}{x}\\\lim_{t\to 0}\frac{t}{\ln (1+t)}*\lim_{x\to 0}\frac{\mu \ln (1+x)}{x}=\mu x→0limx(1+x)μ−1=x→0limln(1+x)μ(1+x)μ−1∗xμln(1+x)t→0limln(1+t)t∗x→0limxμln(1+x)=μ
故 f ′ ( x ) = lim Δ x → 0 f ( x + Δ x ) − f ( x ) Δ x = lim Δ x → 0 ( x + Δ x ) μ − x μ Δ x = lim Δ x → 0 x μ − 1 ∗ ( 1 + Δ x x ) μ − 1 Δ x x = μ x μ − 1 f'(x)=\lim_{\Delta x\to 0}\frac{f(x+\Delta x)-f(x)}{\Delta x}\\ =\lim_{\Delta x\to 0}\frac{(x+\Delta x)^{\mu}-x^{\mu}}{\Delta x}\\ =\lim_{\Delta x\to 0}x^{\mu -1}*\frac{(1+\frac{\Delta x}{x})^{\mu}-1}{\frac{\Delta x}{x}}=\mu x^{\mu-1} f′(x)=Δx→0limΔxf(x+Δx)−f(x)=Δx→0limΔx(x+Δx)μ−xμ=Δx→0limxμ−1∗xΔx(1+xΔx)μ−1=μxμ−1 -
f ( x ) = sin x f(x)=\sin x f(x)=sinx 的导数
引理 lim x → 0 sin x x = 1 \lim_{x\to 0}\frac{\sin x}{x}=1 limx→0xsinx=1
运用夹逼法,得面积关系有 tan x > x > sin x → cos x < sin x x < 1 \tan x>x>\sin x \to \cos x<\frac{\sin x}{x}<1 tanx>x>sinx→cosx<xsinx<1进而得证(可以自行百度)
故有
f ′ ( x ) = lim Δ x → 0 f ( x + Δ x ) − f ( x ) Δ x = lim Δ x → 0 sin ( x + Δ x ) − sin x Δ x f'(x)=\lim_{\Delta x\to 0}\frac{f(x+\Delta x)-f(x)}{\Delta x}\\=\lim_{\Delta x\to 0}\frac{\sin(x+\Delta x)-\sin x}{\Delta x} f′(x)=Δx→0limΔxf(x+Δx)−f(x)=Δx→0limΔxsin(x+Δx)−sinx
和差化积
lim Δ x → 0 sin ( x + Δ x ) − sin x Δ x = lim Δ x → 0 2 sin Δ x 2 cos ( x + Δ x 2 ) Δ x = cos x \lim_{\Delta x\to 0}\frac{\sin(x+\Delta x)-\sin x}{\Delta x}\\ =\lim_{\Delta x\to 0}\frac{2\sin \frac{\Delta x}{2}\cos (x+\frac{\Delta x}{2})}{\Delta x}=\cos x Δx→0limΔxsin(x+Δx)−sinx=Δx→0limΔx2sin2Δxcos(x+2Δx)=cosx
同理可得, ( cos x ) ′ = − sin x (\cos x)'=-\sin x (cosx)′=−sinx -
f ( x ) = a x ( a > 0 , a ≠ 1 ) f(x)=a^{x}(a>0,a\neq 1) f(x)=ax(a>0,a=1) 的导数
引理 lim x → 0 a x − 1 x = ln a \lim_{x\to 0}\frac{a^x-1}{x}=\ln a limx→0xax−1=lna
令 t = a x − 1 t=a^x-1 t=ax−1, lim x → 0 a x − 1 x = lim t → 0 t l o g a ( t + 1 ) = ln a \lim_{x\to 0}\frac{a^x-1}{x}=\lim_{t\to 0}\frac{t}{log_a(t+1)}=\ln a limx→0xax−1=limt→0loga(t+1)t=lna
f ′ ( x ) = lim Δ x → 0 f ( x + Δ x ) − f ( x ) Δ x = a x lim Δ x → 0 a Δ x − 1 Δ x = ln a ∗ a x f'(x)=\lim_{\Delta x\to 0}\frac{f(x+\Delta x)-f(x)}{\Delta x}\\= a^x\lim_{\Delta x\to 0}\frac{a^{\Delta x}-1}{\Delta x}=\ln a*a^x f′(x)=Δx→0limΔxf(x+Δx)−f(x)=axΔx→0limΔxaΔx−1=lna∗ax -
f ( x ) = log a x ( a > 0 , a ≠ 1 ) f(x)=\log_a x(a>0,a\neq 1) f(x)=logax(a>0,a=1) 的导数
f ′ ( x ) = lim Δ x → 0 f ( x + Δ x ) − f ( x ) Δ x = lim Δ x → 0 1 Δ x log a x + Δ x x = lim Δ x → 0 1 x ∗ x Δ x log a ( 1 + Δ x x ) = 1 x ln a f'(x)=\lim_{\Delta x\to 0}\frac{f(x+\Delta x)-f(x)}{\Delta x}\\=\lim_{\Delta x\to 0}\frac{1}{\Delta x}\log_a\frac{x+\Delta x}{x}=\\ \lim_{\Delta x\to 0}\frac{1}{x}*\frac{x}{\Delta x}\log_a(1+\frac{\Delta x}{x})=\frac{1}{x\ln a} f′(x)=Δx→0limΔxf(x+Δx)−f(x)=Δx→0limΔx1logaxx+Δx=Δx→0limx1∗Δxxloga(1+xΔx)=xlna1
于是我们有 ( ln x ) ′ = 1 x (\ln x)'=\frac{1}{x} (lnx)′=x1
-
函数求导法则:
-
定理:如果函数 u = u ( x ) , v = v ( x ) u=u(x),v=v(x) u=u(x),v=v(x) 在 x x x 均具有导数,那么它们的和,差,积,商(分母不为0),都在 x x x 点具有导数
- [ u ( x ) ± v ( x ) ] ′ = u ′ ( x ) ± v ′ ( x ) [u(x)\pm v(x)]'=u'(x)\pm v'(x) [u(x)±v(x)]′=u′(x)±v′(x)
- [ u ( x ) v ( x ) ] ′ = u ′ ( x ) v ( x ) + v ′ ( x ) u ( x ) [u(x)v(x)]'=u'(x)v(x)+v'(x)u(x) [u(x)v(x)]′=u′(x)v(x)+v′(x)u(x)
- [ u ( x ) v ( x ) ] ′ = u ′ ( x ) v ( x ) − u ( x ) v ′ ( x ) v 2 ( x ) [\frac{u(x)}{v(x)}]'=\frac{u'(x)v(x)-u(x)v'(x)}{v^2(x)} [v(x)u(x)]′=v2(x)u′(x)v(x)−u(x)v′(x)
法则1略
-
法则2证明:
[ u ( x ) v ( x ) ] ′ = lim h → 0 u ( x + h ) v ( x + h ) − u ( x ) v ( x ) h = lim h → 0 [ u ( x + h ) − u ( x ) h v ( x + h ) − u ( x ) v ( x + h ) − v ( x ) h ] = u ′ ( x ) v ( x ) + v ′ ( x ) u ( x ) [u(x)v(x)]'=\lim_{h\to 0}\frac{u(x+h)v(x+h)-u(x)v(x)}{h}\\=\lim_{h\to 0}[\frac{u(x+h)-u(x)}{h}v(x+h)-u(x)\frac{v(x+h)-v(x)}{h}]\\=u'(x)v(x)+v'(x)u(x) [u(x)v(x)]′=h→0limhu(x+h)v(x+h)−u(x)v(x)=h→0lim[hu(x+h)−u(x)v(x+h)−u(x)hv(x+h)−v(x)]=u′(x)v(x)+v′(x)u(x)
其中 lim h → 0 v ( x + h ) = v ( x ) \lim_{h\to 0}v(x+h)=v(x) limh→0v(x+h)=v(x) 是因为 v ( x ) v(x) v(x) 在点 x x x 连续 -
法则3 证明:
[ u ( x ) v ( x ) ] ′ = lim h → 0 u ( x + h ) v ( x + h ) − u ( x ) v ( x ) h = lim h → 0 [ u ( x + h ) v ( x ) − u ( x ) v ( x + h ) h v ( x + h ) v ( x ) ] = lim h → 0 [ ( u ( x + h ) − u ( x ) ) v ( x ) − u ( x ) ( v ( x + h ) − v ( x ) ) h v ( x + h ) v ( x ) ] = ( u ′ ( x ) v ( x ) − u ( x ) v ′ ( x ) ) v 2 ( x ) [\frac{u(x)}{v(x)}]'=\lim_{h\to 0}\frac{\frac{u(x+h)}{v(x+h)}-\frac{u(x)}{v(x)}}{h}\\=\lim_{h\to 0}[\frac{u(x+h)v(x)-u(x)v(x+h)}{hv(x+h)v(x)}]\\=\lim_{h\to 0}[\frac{(u(x+h)-u(x))v(x)-u(x)(v(x+h)-v(x))}{hv(x+h)v(x)}]\\=\frac{(u'(x)v(x)-u(x)v'(x))}{v^2(x)} [v(x)u(x)]′=h→0limhv(x+h)u(x+h)−v(x)u(x)=h→0lim[hv(x+h)v(x)u(x+h)v(x)−u(x)v(x+h)]=h→0lim[hv(x+h)v(x)(u(x+h)−u(x))v(x)−u(x)(v(x+h)−v(x))]=v2(x)(u′(x)v(x)−u(x)v′(x)) -
复合函数求导法则:
定理:若干 u = g ( x ) u=g(x) u=g(x) 在点 x x x 可导,而 y = f ( u ) y=f(u) y=f(u) 在点 u = g ( x ) u=g(x) u=g(x) 可导,那么复合函数 y = f [ g ( x ) ] y=f[g(x)] y=f[g(x)]在点 x x x 可导,其导函数为
d y d x = f ′ ( u ) ∗ g ′ ( x ) \frac{\text{d}y}{\text{d}x}=f'(u)*g'(x) dxdy=f′(u)∗g′(x)
证明:
lim Δ u → 0 Δ y Δ u = f ′ ( u ) \lim_{\Delta u\to 0}\frac{\Delta y}{\Delta u}=f'(u) Δu→0limΔuΔy=f′(u)
那么我们有
Δ y Δ u = f ′ ( u ) + α ( Δ u ) \frac{\Delta y}{\Delta u}=f'(u)+\alpha(\Delta u) ΔuΔy=f′(u)+α(Δu)
其中 α ( Δ u ) \alpha(\Delta u) α(Δu) 是 Δ u → 0 \Delta u\to 0 Δu→0 时的无穷小,那么
Δ y = f ′ ( u ) Δ u + α ( Δ u ) Δ u Δ y Δ x = f ′ ( u ) Δ u Δ x + α ( Δ u ) Δ u Δ x \Delta y=f'(u)\Delta u+\alpha(\Delta u)\Delta u\\ \frac{\Delta y}{\Delta x}=f'(u)\frac{\Delta u}{\Delta x}+\alpha(\Delta u)\frac{\Delta u}{\Delta x} Δy=f′(u)Δu+α(Δu)ΔuΔxΔy=f′(u)ΔxΔu+α(Δu)ΔxΔu
由于 g ( x ) g(x) g(x) 连续,所以 Δ x → 0 \Delta x\to 0 Δx→0 时, Δ u → 0 \Delta u\to 0 Δu→0,所以 lim Δ x → 0 α ( Δ u ) = 0 \lim_{\Delta x\to 0}\alpha(\Delta u)=0 limΔx→0α(Δu)=0
所以
d x d y = f ′ ( u ) ∗ g ′ ( x ) \frac{\text{d}x}{\text{d}y}=f'(u)*g'(x) dydx=f′(u)∗g′(x) -
还有一些常见函数的求导
( t a n x ) ′ = ( s i n x c o s x ) ′ = c o s 2 x + s i n 2 x c o s 2 x = s e c 2 x (tan\ x)'=(\frac{sin\ x}{cos\ x})'=\frac{cos^2\ x+sin^2\ x}{cos^2\ x}=sec^2\ x (tan x)′=(cos xsin x)′=cos2 xcos2 x+sin2 x=sec2 x
( c o t x ) ′ = c o s x s i n x = − 1 s i n 2 x = − c s c 2 x (cot\ x)'=\frac{cos\ x}{sin\ x}=\frac{-1}{sin^2\ x}=-csc^2\ x (cot x)′=sin xcos x=sin2 x−1=−csc2 x
( s e c x ) ′ = ( 1 c o s x ) ′ = s i n x c o s 2 x = s e c x t a n x (sec\ x)'=(\frac{1}{cos\ x})'=\frac{sin\ x}{cos^2\ x}=sec\ xtan \ x (sec x)′=(cos x1)′=cos2 xsin x=sec xtan x
( c s c x ) ′ = 1 s i n x = − c o s x s i n 2 x = − c s c x c o t x (csc\ x)'=\frac{1}{sin\ x}=\frac{-cos\ x}{sin^2\ x}=-csc\ xcot\ x (csc x)′=sin x1=sin2 x−cos x=−csc xcot x
( a r c s i n x ) ′ = 1 ( s i n y ) ′ = 1 c o s y = 1 1 − s i n 2 y = 1 1 − x 2 (arcsin\ x)'=\frac{1}{(sin\ y)'}=\frac{1}{cos\ y}=\frac{1}{\sqrt{1-sin^2\ y}}=\frac{1}{\sqrt{1-x^2}} (arcsin x)′=(sin y)′1=cos y1=1−sin2 y1=1−x21
( a r c c o s x ) ′ = 1 ( c o s y ) ′ = − 1 s i n y = − 1 1 − x 2 (arccos\ x)'=\frac{1}{(cos\ y)'}=-\frac{1}{sin\ y}=-\frac{1}{\sqrt{1-x^2}} (arccos x)′=(cos y)′1=−sin y1=−1−x21
( a r c t a n x ) ′ = 1 s e c 2 y = 1 1 + t a n 2 y = 1 1 + x 2 (arctan\ x)'=\frac{1}{sec^2 y}=\frac{1}{1+tan^2 y}=\frac{1}{1+x^2} (arctan x)′=sec2y1=1+tan2y1=1+x21
( a r c c o t x ) ′ = − 1 c s c 2 y = − 1 1 + x 2 (arccot\ x)'=\frac{-1}{csc^2\ y}=-\frac{1}{1+x^2} (arccot x)′=csc2 y−1=−1+x21 -
莱布尼兹公式
( u v ) ( n ) = ∑ i = 0 n ( n i ) u ( i ) v ( n − i ) (uv)^{(n)}=\sum_{i=0}^n\binom{n}{i}u^{(i)}v^{(n-i)} (uv)(n)=i=0∑n(in)u(i)v(n−i)
-
-
详解BP算法之链式求导法则
2020-12-11 22:57:01BP算法的文章很多,但是详解BP算法中的链式求导法则应该只此一家了。包括Hinton关于BP网络的原始论文,对链式求导法则也只是一带而过。 文章先从简化版本的链式法则讲起,再将其应用到BP算法中。 简化版本的链式法则...BP算法的文章很多,但是说明白BP算法中的链式求导法则应该只此一家了。
西瓜书,李宏毅的网课,考研时的高数资料,高赞博客,甚至Hinton的原始论文,对链式求导法则也只是一带而过。文章先从简化版本的链式法则讲起,再将其应用到BP算法中。
简化版本的链式法则
两层嵌套(复合)函数
如上图所示,E是A1,A2,A3的函数,A1,A2,A3都是B1函数。此时,简单的运用链式求导法则即可求得E关于B1的偏导:
d E d B 1 = d E d A 1 ∗ d A 1 d B 1 + d E d A 2 ∗ d A 2 d B 1 + d E d A 3 ∗ d A 3 d B 1 \frac{dE}{dB_1}=\frac{dE}{dA_1}*\frac{dA_1}{dB_1}+\frac{dE}{dA_2}*\frac{dA_2}{dB_1}+\frac{dE}{dA_3}*\frac{dA_3}{dB_1} dB1dE=dA1dE∗dB1dA1+dA2dE∗dB1dA2+dA3dE∗dB1dA3但是当函数复合了三层以后,又该怎么处理呢?
三层嵌套(复合)函数
如上图所示,E是A1,A2,A3的函数,A1,A2,A3都是B1,B2,B3函数,B1,B2,B3都是 C 1 C_1 C1的函数。那么E关于 C 1 C_1 C1的偏导该怎么求呢?
根据函数的嵌套关系,我们很容易就能写出 d E d A i ∗ d A i d B j ∗ d B j d C 1 ( i , j = 1 , 2 , 3 ) \frac{dE}{dA_i}*\frac{dA_i}{dB_j}*\frac{dB_j}{dC_1}(i,j=1,2,3) dAidE∗dBjdAi∗dC1dBj(i,j=1,2,3)这样的式子,如 d E d A i ∗ d A 1 d B 1 ∗ d B 1 d C 1 , d E d A 1 ∗ d A 1 d B 2 ∗ d B 2 d C 1 . . . \frac{dE}{dA_i}*\frac{dA_1}{dB_1}*\frac{dB_1}{dC_1},\frac{dE}{dA_1}*\frac{dA_1}{dB_2}*\frac{dB_2}{dC_1}... dAidE∗dB1dA1∗dC1dB1,dA1dE∗dB2dA1∗dC1dB2...。我们可以轻而易举的把i,j=1,2,3的式子穷举出来。但是随之困扰我们的一个问题就是,该用什么符号把这些式子连接起来,是加号,减号或者乘号?
这个问题困扰了我很久,查了西瓜书,考研时的高数资料,网上的博客,甚至悲催的读了Hinton的原始论文,但是遗憾的是,所有的资料都只描述了两层嵌套的链式法则。因此,用两层嵌套嵌套的链式法则就能解决多层嵌套的求导问题,应当是业界共识。
思索之后,答案呼之欲出:可以把前面N-1层嵌套压缩成一层嵌套。举例来说,如上图的三层嵌套函数E可以描述为:E是 B 1 , B 2 , B 3 B_1,B_2,B_3 B1,B2,B3的函数, B 1 , B 2 , B 3 B_1,B_2,B_3 B1,B2,B3是 C 1 C_1 C1的函数;而E关于 B i B_i Bi的偏导,就是我们在二层嵌套中已经求过的偏导数。这样就可以使用链式法则了,具体如下图所示:链式法则在BP中的应用
如果掌握了上述多层嵌套链式法则,不妨把它运用的实际的BP算法中。
首先看一个简单的BP网络,为了简化问题,该网络只包含接近输出层的部分: θ \theta θ代表阈值,w代表连接权,x代表输入,y代表输出,激活函数f是sigmoid函数 1 1 + e − x \frac{1}{1+e^{-x}} 1+e−x1。另外, y i ^ \hat{y_i} yi^表示样例的第i个输出,E是偏差。
再用具体的数学表达式明确表示出嵌套关系:然后我们就可以开始计算了。在BP算法中,从输出层往输入层计算。在本例中,首先从输出层往输入层计算出偏差关于输入的偏导:
然后再从输出层往输入层计算出偏差关于阈值和连接权的偏导数: -
复合函数求导法则(链式求导法则)
2020-04-13 10:04:44 -
复合函数求导法则的又一证明
2021-04-28 03:11:28复合函数求导法则的又一证明陈尔明 (齐齐哈尔师范学院数学系 161006)复合函数的求导法则是求导运算的重要法则Ζ 对于 y = f (u ) , u= g (x ) , 复合函数 y =f 〔g (x )〕的求导法则的证明有一个很自然的想法: ∃y... -
复合函数求导法则
2021-02-24 19:43:06uuu 和 vvv 都是关于自变量 xxx 的函数。 加减形式: [u±v]′=u′±v′ \left[ u \pm v \right]' = u' \pm v' [u±v]′=u′±v′ 相乘形式: [uv]′=u′v+uv′ \left[ u v \right]' = u' v + uv' ... -
链式求导法则-微积分高数解答版
2020-08-13 17:06:30链式求导法则-微积分高数解答版 看了深度学习的反向计算的链式法则是不是一脸懵,不怕,本文从大学老师的讲解方法让你从根本上理解链式法则 注:本文适合学过高数,但又把知识还给老师的小伙伴。能让你立马回忆... -
函数的求导法则
2020-02-17 11:28:29一、函数的和差、积商的求导法则 1.1、定理1 1.2、证明,通过极限证明 二、反函数的求导法则 2.1、定理 -
【数学】 隐函数求导法则
2021-08-12 22:26:40【数学】 隐函数求导法则 本篇内容我们说一下隐函数求导的法则,之前在初次接触导数的时候,我们有总结过一部分隐函数求导的内容,虽然和本篇的内容有一部分相似,但是可以再看一看用于对比理解。上正文。 一、... -
与机器学习相关的链式求导法则
2022-04-19 15:54:29介绍了标量对向量的链式求导法则、向量对向量的求导法则,标量对矩阵的求导法则。 -
多元复合函数的求导法则
2020-03-10 20:15:02一、复合函数的求导法则 1.1、一元函数与多元函数符合的情形 1.1.1、证明 1.1.2、推广到中间变量多余两个的 1.2、多元函数与多元函数的复合 1.2.1、为什么将dzdx变成∂z∂x\frac {dz} {dx} 变成\frac {\partial ... -
复合函数的求导法则怎么证明?
2021-01-12 11:18:28展开全部复合函数的求导法则证明:例如:要求f(g(x))对x的导数,且f(g(x))和g(x)均可导。首先,根62616964757a686964616fe58685e5aeb931333365643661据定义:当h->0时,g'(x)=lim(g(x+h)-g(x))/h,所以,当h->... -
复合函数求导法则证明
2020-09-01 11:54:111.提示 从导数的定义出发 2证明 参考:传送门 3.总结 任何公式、定理、法则等都是从它最简单的定义推起 -
导数的概念和求导法则
2020-09-17 21:34:50一、导数的概念 1. 导数的定义 例题1 2. 幂函数求导 3. 常用和差化积公式 4. 正弦函数求导 5. 单侧导数 -
链式求导法则
2019-01-26 13:13:54本文只总结了多元复合函数的链式求导法则(一元的更简单就不写了) 直接结合一个例子结合复合结构图来说这个问题 Z = F(U,V,W) U = U(y) V = V(x,y) W = W(x) 下面是它的复合结构图 有了复合结构图就很... -
矩阵求导法则的总结
2019-05-01 15:10:23最重要的写在前面: 首先我们要知道矩阵不是某个人发现的定理,矩阵的组织形式就是为了其计算简便,发明矩阵的人发现用矩阵计算可以直观,很便捷,所以他就想用矩阵的形式...每个量对未知量进行求导时,求完导要考... -
矩阵求导法则与性质
2018-07-04 16:04:52介绍矩阵求导法则,以及常用的求导公式、迹函数、行列式求导结论 矩阵求导法则 矩阵求导应该分为标量求导、向量求导、矩阵求导三个方面来介绍,公式繁多,但仔细看看其实是有规律可循的。 标量求导 无论是... -
求导法则及求导公式.doc
2021-09-27 09:14:24求导法则及求导公式.doc -
基本求导法则与求导公式
2020-10-10 18:12:40一 概述 二 导数的求导法则与导数公式 参考资料:高等数学第七版 上册 第二章 导数与微分 -
矩阵向量求导法则两篇
2020-11-22 14:51:29矩阵、向量求导法则 中文版 包含所有情况和公式,适合翻阅查找 英文版包含推导,非常详细,适合精度,包含了矩阵tr技巧 -
矩阵和向量的求导法则
2018-12-16 20:46:51在Machine Learning 和Deep Learning里面 经常涉及对矩阵和向量的求导,本文介绍一下常用的求导法则。 -
矩阵求导法则
2018-09-11 16:07:41鉴于我看过的一些资料或言之不详、或繁乱无绪,本文来做个科普,分作两篇,上篇讲标量对矩阵的求导术,下篇讲矩阵对矩阵的求导术。本文使用小写字母x表示标量,粗体小写字母xx 表示向量,大写字母X表示矩阵。 首先... -
隐函数求导法则
2021-03-16 17:14:23《隐函数求导法则》由会员分享,可在线阅读,更多相关《隐函数求导法则(25页珍藏版)》请在人人文库网上搜索。1、第五节 隐函数的求导公式,一、一个方程的情形 二、方程组的情形 三、小结,一、一个方程的情形,隐函数... -
画图法计算链式求导法则,最简单,最准确
2021-03-01 11:24:28 -
导数的定义以及基本求导法则
2021-11-27 13:45:46导数的概念和求导法则 导数的定义 导数的四则运算法则 基本初等函数的导数公式 高阶导数 导数的定义 1 设函数y=f(x)在点x0的某一领域内有定义。当自变量x在点x0处取得增量∆x,相应的函数有增量∆y=f(x0 + ∆x) - f... -
多元函数求导法则.doc
2021-10-11 21:48:48多元函数求导法则.doc
-
矩阵向量<em>求导法则</em>两篇矩阵、向量<em>求导法则</em> 中文版 包含所有情况和公式,适合翻阅查找 英文版包含推导,非常详细,适合精度,包含了矩阵tr技巧
-
机器学习中的矩阵和<em>求导</em>.zip机器学习中涉及大量的矩阵论相关知识与问题,此资料有助于程序员理解解决相关问题
-
人工智能深度学习卷积神经网络入门通过学习卷积神经网络概述,为什么引入神经网络来做识别,判断,预测,训练模型,激活函数,sigmoid激活函数,导数和切线,sigmoid激活函数如何<em>求导</em>,链式<em>法则</em>
-
《数学分析习题课讲义(下册)》作者: 谢惠民 出版年: 2004年§19.3 复合函数<em>求导</em>链式<em>法则</em> 19.3.1 复合函数偏导数的链式<em>法则</em> 19.3.2 例题 19.3.3 齐次函数 19.3.4 练习题 519
-
数据科学笔记:数据科学的笔记以及资料搜集数据科学笔记 数据科学的笔记以及资料搜集,目前尚在更新,部分内容替换github搜集。 (数学基础) (python基础) (numpy基础) (pandas基础) (scipy基础) (