精华内容
下载资源
问答
  • 家的深刻含义
    千次阅读
    2019-08-16 09:19:08

    DayDayUp:今天早上看到一条朋友圈——《吃苦与穷的深刻认知》

     

     

    目录

    关于吃苦与穷

    人生

    拼搏靠自己

    优秀是一种习惯


     

     

     


     

    关于吃苦与穷

           大多数人对吃苦的含义,理解的太肤浅了。穷,根本不是吃苦,穷就是穷,不是吃苦。吃苦不是受穷的能力,吃苦的本质是长时间为了一件事聚焦的能力,以及在为了做一件事长时间聚焦的过程中所放弃的娱乐生活,所放弃的无效社交,所放弃的无意义的消费生活,以及在这个过程中所忍受的不被理解和孤独

            吃苦的本质,是一种自控能力和自制能力,以及坚持能力和思考深度。从很大程度上来说,靠自己成功的富人,往往比穷人能吃苦;否则,他就不可能靠自己白手起家,你会发现他富了以后做事情还是比你勤奋,还是比你能忍受孤独,还是比你更有理想。这才是吃苦。 

              不是贫穷限制了你的思维,而是你的思维导致了你的贫穷!

     

     

    人生

    不同思维决定了不同的人生,不同的人生,决定了不同生活质量。
    没有经济基础,哪来的经济独立,没有经济独立哪来的财富自由。
    不同的人,选择了不同的梦想,所以,才会有不一样的人生
    不想付出,还想得到更多,会有那么美的事情?
    有人辩解道:对女生来说,或许有。但是,你要明白,白白给你的,你真敢要吗?问问看守所里的人,如今忏悔的,比比皆是。
    醒醒吧,姿势不对,起来重睡!

     

     

    拼搏靠自己

               拼搏,其实从来就只能靠自己,越是寄托,越是无助 。只有学会独自成长,才能面对朗朗乾坤。 

     

     

     

     

    优秀是一种习惯

             亚里士多德曾经说过:“我们每一个人都是由自己一再重复的行为所铸造的。因而优秀不是一种行为,而是一种习惯。”在伊索寓言中“兔子和乌龟”中,兔子天生脚快,其奔跑的速度远胜于乌龟,然而,它跑了没多久,却躺在路边睡起大觉来了。平心而论,兔子在奔跑这一行为上不可谓不优秀,但它最终还是做了乌龟的手下败将。乌龟究竟拥有什么取胜的法宝呢?伊索的描述是“一往直前,毫不停歇”,如果我们把它概括得更抽象一点,也即乌龟拥有坚韧不拔的优秀品质,而坚韧不拔的优秀品质在具体的行为过程中自然而然地外化成一往直前的优秀习惯。
            所有成功人士都有一个共性,那就是,基于良好习惯构造的日常行为规律。各个领域中的杰出人士——成功的运动员、律师、政客、医生、企业家、音乐家、销售员,以及所有专业领域中的佼佼者,在他们的身上你都能发现这样一个共性,那就是良好的习惯。正是这些好习惯帮助他们开发出更多的与生俱来的潜能
            优秀是一种习惯,这种习惯的养成,来自于家庭的教育和熏陶,来自于生活中对挫折与坎坷的体验,来自于每一次学习和感悟……这一切都会在人的潜意识中形成印记,控制与影响人的思想,而思想又决定着人的生活与命运,这就是“习惯决定命运”的意义所在
            让自己优秀起来,唯一的渠道就是认清自己,然后去做,从小事做起,从点滴做起,一点一点积累自己的经验,一点一点积累自己的好习惯,持之以恒,周而复始。当优秀成为一种习惯的时候,习惯将助推着你变得更加优秀,如是而已

     

     

     

     

    参考文章
    DayDayUp:寒门女孩考入北大→换角度看待表达《感谢贫穷》—关于吃苦与穷~~~Python之wordcloud词云图可视化
    亚里士多德:优秀是一种习惯

     

     

     

     

     

    更多相关内容
  • 自己也不懂分贝的含义,就在度娘这搜了半天也没找到可靠的答案,还不了解由来和计算方法。没办法忽然想到了维基百科,但是呢,被墙了,那么好的网站,不知道为什么这样? 幸好找到了中文的,记下来自己需要的,以免...

    自己也不懂分贝的含义,就在度娘这搜了半天也没找到可靠的答案,还不了解由来和计算方法。没办法忽然想到了维基百科,但是呢,被墙了,那么好的网站,不知道为什么这样?

    幸好找到了中文的,记下来自己需要的,以免再也找不到了---记录@br

    dB增益表
    (功率)P_{1}:P_{0}L_{dB}(电压)A_{1}:A_{0}G_{dB}
    1.2589:111.2201:11
    1.9952:13(-3)(0.5011)1.4135:13
    3.9811:161.9953:16(-6)(0.5011)
    10:1103.1623:110
    100:12010:120
    1000:13031.6228:130
    100000:150316.2278:150
    1000000601000:160
    10000000000:110010000:1100

     

     有人想进一步了解的话,请看下文,反正我是看啦,哈哈!

    分贝(decibel)是量度两个相同单位之数量比例的单位,常用dB表示。“”(deci-)指十分之一,个位是“贝”或“贝尔”(bel,纪念发明家亚历山大·格拉汉姆·贝尔),但一般只用分贝。

    分贝(dB)是十分之一贝尔(B):1B = 10dB。

    1贝尔的两个功率量的比值是10:1,1贝尔的两个场量的比值是 \sqrt{10}:1

    场量(field quantity)是诸如电压电流声压电场强度速度电荷密度等量值,其平方值在一个线性系统中与功率成比例。

    功率量(power quantity)是功率值或者直接与功率值成比例的其它量,如能量密度音强发光强度等。

    分贝的计算,依赖于是功率量或者是场量而不同。(PS:常量的平方值在线性系统中和功率成比例)

    功率量

    考虑功率或者强度(intensity)时,其比值可以表示为分贝,这是通过把测量值与参考量值之比计算基于10的对数,再乘以10。因此功率值P1与另一个功率值P0之比用分贝表示为{L}_{dB}

                                                                  L_{dB}=10log_{10}(\frac{P_{1}}{P_{0}})

    两个功率值的比值基于10的对数,就是贝尔(bel)值。两个功率值之比的分贝值是贝尔值的1/10倍(或者说,1个分贝是十分之一贝尔)。P1与P0必须度量同一个数值类型,具有相同的单位。如果在上式中P1 = P0,那么{L}_{dB} = 0。

    如果P_{1}大于P_{0},那么{L}_{dB}是正的;如果P_{1}小于P_{0},那么{L}_{dB}是负的。

    重新安排上式可得到计算P_{1}的公式,依据P_{0}{L}_{dB}:

                                                                \large P_{1}=10^{\frac{L_{dB}}{10}}P_{0}

    因为贝尔是10倍的分贝,对应的使用贝尔(\large L_{B})的公式为

                                                               \large L_{B}=log_{10}(\frac{P_{1}}{P_{0}})                       

                                                               \large P_{1}=10^{​{L_{B}}}P_{0}                

    场量

    考虑到场(field)的幅值(amplitude)时,通常使用A1(度量到的幅值)的平方与A0(参考幅值)的平方之比。这是因为对于大多数应用,功率与幅值的平方成比例,并期望对同一应用采取功率计算的分贝与用场的幅值计算的分贝相等。因此使用下述场量的分贝定义:

                                            L_{dB}=10log_{10}(\frac{A_{1}^{2}}{A_{0}^{2}})=20log_{10}(\frac{A_{1}}{A_{0}})

                                                              \large A_{1}=10^{\frac{L_{dB}}{20}}A_{0}

    电子电路中,阻抗不变时,耗散功率通常与电压或电流的平方成正比。以电压为例,有下述方程:

                                                           G_{dB}=20log_{10}(\frac{V_{1}}{V_{0}})

    其中V_{1}是电压的测量值,V_{0}是指定的参考电压,G_{dB}是用分贝表示的功率增益。类似的公式对电流也成立。

    例子

    功率之比是10,则其分贝数凑巧也是10。

     功率之比是2(1.9953),则约为3分贝,功率之比是1/2(0.5011),则约为-3分贝。

    类似地,3分贝意味着电压之比约是  或1.414。6分贝对应功率增加了4倍,电压增加了2倍。6分贝的功率之比确切值是\large 10^{\frac{6}{10}}或3.9811,与4的误差为0.5%.

    完整版下载

    展开全文
  • 偏微分方程的物理含义

    千次阅读 2022-03-22 10:47:59
    偏微分方程的物理含义1.实际问题采用偏微分方程的原因2.偏微分方程的物理含义(1) 双曲型方程。其代表是 波动方程(2)抛物型方程。其代表是 热传导方程(3) 椭圆型方程。其代表是 拉普拉斯方程(4)薛定锷方程成为量子...

    1.实际问题采用偏微分方程的原因

    在实际的工程和物理问题中,所欲分析的物理量(即未知函数)常受到不止一个变量的影响,所以一般多以偏微分方程表示。

    2.偏微分方程的物理含义

    包含多元未知函数的某些偏导数的方程,统称为偏微分方程。它有两个特点,一是未知函数为一个多元函数(否则,若未知函数只是一个一元函数,就是一个常微分方程!),二是方程中要包含未知函数的某些偏导数(否则,就是一个函数方程!)。这样来定义偏微分方程,其研究的目标和对象就太宽泛了,很难得到深入的结果。其实,偏微分方程这门数学学科的出现和兴起,并不是从偏微分方程的上述广泛的定义出发的,恰恰相反,是源于实践及应用需要的驱动,才使少数一些特殊类型的偏微分方程引起了人们普遍的关注,成了反复深入研究的对象,而对其他种种 “可能” 出现的偏微分方程却根本置之不顾。

    自18世纪中叶开始对偏微分方程开展研究以来,人们的兴趣长期集中在下面几种典型的偏微分方程上。

    (1) 双曲型方程。其代表是 波动方程

    人们在研究波动现象(如声波,电磁波,弹性波…)时,总结出它们的共性,即波的传播过程——波动方程,从而在信息通讯、石油勘探、半导体器件、电子显微镜、激光制导等等领域有着广泛的应用,真正改变了人们的生活。
    ∂ 2 u ∂ t 2 = a 2 Δ u \frac{\partial^2 u}{\partial t^2}=a^2 \Delta u t22u=a2Δu
    其中 u = u ( t , x , y , z ) u=u(t,x,y,z) u=u(t,x,y,z)为以时间变量 t t t 及空间变量 ( x , y , z ) (x,y,z) (x,y,z) 为自变量的未知函数,方程左端为 u u u t t t 的二阶偏导数,右端的 Δ = ∂ 2 ∂ x 2 + ∂ 2 ∂ y 2 + ∂ 2 ∂ z 2 \Delta=\frac{\partial^2}{\partial x^2}+\frac{\partial^2}{\partial y^2}+\frac{\partial^2}{\partial z^2} Δ=x22+y22+z22 通称拉普拉斯算子,而 a ( > 0 ) a(>0) a(>0) 是一个表示波速的常数系数。

    算子:对任何函数进行某一项操作都可以认为是一个算子

    (2)抛物型方程。其代表是 热传导方程

    ∂ u ∂ t = a 2 Δ u \frac{\partial u}{\partial t}=a^2 \Delta u tu=a2Δu
    与波动方程不同,这个方程的左端是未知函数 u u u t t t 的一阶偏导数。这个方程描述了由傅立叶(Fourier)在其1822年出版的名著《热的解析理论》中深入阐述的热的传导现象,揭示了一系列有关热传导的规律。

    (3) 椭圆型方程。其代表是 拉普拉斯方程

    Δ u = 0 \Delta u=0 Δu=0

    其中 u = u ( x , y , z ) u=u(x,y,z) u=u(x,y,z) 是一个与时间 t t t 无关的未知函数。这个方程不仅可以用来表示稳定的温度场(稳定温度场,是指如果物体各点的温度随时间的变化而不变化,此时的温度场为稳定温度场),也可以用来表示静电场、静磁场、定常扩散现象、柱形杆的扭转、流体力学及势论。

    随着科技的不断进步与发展,经典的数学物理方程,除了上面列举的最典型的三类方程外,其范围也在不断的扩大。现在,描述电磁理论的 麦克斯韦(Maxwell)方程组,描述流体运动的 欧拉方程组和 纳维-斯托克斯(Navier-Stokes)方程组,描述弹性体运动的 弹性力学方程组,描述量子力学基本规律的 薛定锷(Schrödinger)方程,描述孤立波的 KdV方程,广义相对论的 爱因斯坦(Einstein)方程,等等,都已成为引起广泛重视和深入研究的重要的数学物理方程。

    (4)薛定锷方程成为量子力学的基本数学模型

    薛定锷方程 i h ∂ Ψ ∂ t = − h 2 2 m Δ Ψ ih\frac{\partial \Psi}{\partial t}=-\frac{h^2}{2m}\Delta \Psi ihtΨ=2mh2ΔΨ

    是量子力学中描述单个微观粒子运动规律的基本方程,其中 i = − 1 i=\sqrt{-1} i=1 为虚数单位, h h h 为一个物理常数, m m m 为微观粒子的质量,而 Ψ \Psi Ψ (psaɪ,称为波函数)是一个复值的未知函数(函数值为复数的函数,例如 y = x + i y=x+i y=x+i ( i i i 为虚数单位))。这个偏微分方程的推导并没有已有物理规律的支撑,其中还意外地出现了虚数单位 i i i ,它究竟是不是描述微观世界粒子运动规律的一个正确的数学模型呢?

    把这个方程用于一个很简单的微观粒子——氢原子,用求解偏微分方程的方法算出氢原子的光谱线,发现和实测的结果完全一致,使这个方程成功地经受了实践的检验,从而牢固地确立了其为量子力学基本方程的地位。

    从薛定锷方程中可以看出,量子力学的基本方程中本质地出现了虚数单位 i i i,这深刻地意味着“虚数不虚”,自然界实际上是用复数而不是用实数来运作的。

    相关概念

    波函数:在量子力学中,为了定量地描述微观粒子的状态,量子力学中引入了波函数 ,并用 Ψ \Psi Ψ 表示。一般来讲,波函数是空间和时间的函数,并且是复函数,即 Ψ = Ψ ( x , y , z , t ) \Psi=\Psi(x,y,z,t) Ψ=Ψ(x,y,z,t)

    氢原子光谱:指的是氢原子内的电子在不同能级跃迁时所发射或吸收不同波长、能量之光子(传递电磁相互作用的基本粒子)而得到的光谱。

    (5)描述孤立波的 KdV方程(korteweg-de Vries 方程)

    1834年秋,英国科学家、造船工程师罗素在运河河道上看到了由两匹骏马拉着的一只迅速前进的船突然停止时,被船所推动的一大团水却不停止,它积聚在船头周围激烈地扰动,然后形成一个滚圆、光滑而又轮廓分明的大水包,高度约为0.3~0.5米,长约10米,以每小时约13公里的速度沿着河面向前滚动。罗素骑马沿运河跟踪这个水包时发现,它的大小、形状和速度变化很慢,直到3~4公里后,才在河道上渐渐地消失。罗素马上意识到,他所发现的这个水包决不是普通的水波。普通水波由水面的振动形成,振动沿水平面上下进行,水波的一半高于水面,另一半低于水面,并且由于能量的衰减会很快消失(类似于下图。
    在这里插入图片描述

    他所看到的这个水包却完全在水面上,能量的衰减也非常缓慢(若水无阻力,则不会衰减并消失)。并且由于它具有圆润、光滑的波形,所以它也不是激波。类似于下图:
    在这里插入图片描述

    罗素将他发现的这种奇特的波包称为孤立波,并在其后半生专门从事孤立波的研究。他用大水槽模拟运河,并模拟当时情形给水以适当的推动,再现了他所发现的孤立波。罗素认为孤立波应是流体力学的一个解,并试图找到这种解,但没有成功。
    十年后(1845年)罗素向英国科学促进会报告了自己的观点,但却没能说服他的同事们,罗素所发现的孤立波现象也未能引起人们的注意。50年以后即1895年,两位数学家科特维格与得佛里斯从数学上导出了有名的浅水波 KdV 方程,并给出了一个类似于罗素孤立波的解析解,即孤立波解,孤立波的存在才得到普遍承认。

    浅水波的动力学方程由 KdV 方程给出:
    ∂ u ∂ t + 6 u ∂ u ∂ x + ∂ 3 u ∂ x 3 = 0 \frac{\partial u}{\partial t}+6u\frac{\partial u}{\partial x}+\frac{\partial^3 u}{\partial x^3}=0 tu+6uxu+x33u=0
    其中 u u u 为振幅。

    考虑行(xing)波解:令 u ( x , t ) = f ( ζ ) = f ( x − c t ) u(x,t)=f(\zeta)=f(x-ct) u(x,t)=f(ζ)=f(xct)
    其中 c c c 为波速。

    则方程可化为对变量 ζ \zeta ζ 的常微分方程: d 3 f d ζ 3 + ( 6 f − c ) d f d ζ = 0 \frac{d^3 f}{d \zeta^3}+(6f-c)\frac{df}{d\zeta}=0 dζ3d3f+(6fc)dζdf=0
    可以解出孤立波解(孤立波解是一大类非线性偏微分方程的一种解的统称):
    u ( x , t ) = f ( x − c t ) = c ′ + 1 2 c ⋅ s e c h 2 [ 1 2 c ( x − c t + x 0 ) ] u(x,t)=f(x-ct)=c'+\frac{1}{2}c·sech^2[\frac{1}{2}\sqrt{c}(x-ct+x_0)] u(x,t)=f(xct)=c+21csech2[21c (xct+x0)]
    其形状类似钟形曲线。
    在这里插入图片描述

    在特定的情况下还有多孤立波解,例如对于初始条件 u ( x , 0 ) = 6 s e c h 2 x u(x,0)=6sech^2x u(x,0)=6sech2x ,KdV 方程有双孤子解,为:
    u ( x , t ) = 12 4 c o s h ( 2 x − 8 t ) + c o s h ( 4 x − 64 t ) + 3 [ 3 c o s h ( x − 28 t ) + c o s h ( 3 x − 36 t ) ] 2 u(x,t)=12\frac{4cosh(2x-8t)+cosh(4x-64t)+3}{[3cosh(x-28t)+cosh(3x-36t)]^2} u(x,t)=12[3cosh(x28t)+cosh(3x36t)]24cosh(2x8t)+cosh(4x64t)+3
    波的图像变化如图:
    在这里插入图片描述

    两个孤立子的相互作用

    由图可见,两孤立子相遇前后波形并未改变,但发生了相移(相遇前后波各自平移了一定距离),类似于粒子的碰撞。

    除了KdV 方程,还有一些偏微分方程也可以给出孤立波解,如非线性薛定谔方程、户田非线性晶格方程等。

    **孤立波:**以一定速度前行并且不变形的水波,既可以发生在河流,又可以发生在海中。它被成为“孤立波”(Solitary Wave)。
    孤立波是存在于自然界 (水面、大气层、光学介质 、等离子体) 的一种独特的波动现象 。它的特点是:行波单峰 、匀速 、不变形 、相互作用时不受破坏。鉴于这种波动具有像是不受任何阻碍地在运动,它又被称为“ 孤立子 、孤子”(Soliton)。

    解析解和数值解:

    解析解(analytical solution)是严格按照公式逻辑推导得到的。给出任意的自变量就可以求出其因变量,也就是问题的解,他人可以利用这些公式计算各自的问题,具有广泛适用性;数值解(numerical solution)是采用某种计算方法,在特定的条件下得到的一个近似数值结果。别人只能利用数值计算的结果,而不能随意给出自变量并求出计算值。

    举个例子:对于方程 x 2 = 2 x^2 = 2 x2=2

    其解析解为: ± 2 ±\sqrt{2} ±2

    其数值解为: ± 1.414213...... ±1.414213...... ±1.414213......

    **行波解:**行波的物理意义是波在介质中传播时不断向前推进,故称行波,对方程 u ( x , t ) = f ( ζ ) = f ( x − c t ) u(x,t)=f(\zeta)=f(x-ct) u(x,t)=f(ζ)=f(xct) 的解 代表以速度 c c c x x x 轴正负两个方向传播的行波为自变量的函数。

    3.总结

    在众多可能的偏微分方程中,只关注这几类特殊的方程, 其原因除了对偏分方程极少有非常一般性的结论外,根本在于:不同的物理来源与背景,会归结出不同类型的偏微分方程,其解有不同的特性,其问题的提法和求解的方法因而也各不相同。只有根据实践中的迫切需要,分门别类地进行研究,才能充分展现有关偏微分方程的丰富内涵,深入揭示问题的本质,取得深刻的成果。正因为如此,在大学里开设的偏微分方程课程,往往称之为 数学物理方程,重点强调那些与物理世界密切联系的特殊类型的偏微分方。

    偏微分方程,根据它的特点和任务,除了本身是一门博大精深的数学学科外,还应有两个重要的研究目标。一是物理模型,它是提供有意义的偏微分课题的不竭源泉;一是科学计算,它不仅可以对偏微分方程提供足够精确的近似解,而且可以对偏微分方程的理论研究提供新的思路和方法。

    展开全文
  • 感知机 1958年,计算科学Rosenblatt提出了由两层神经元组成的神经网络。他给它起了一个名字--“感知器”(Perceptron)(有的文献翻译成“感知机”,下文统一用“感知器”来指代)。 感知器是当时首个可以学习的...

    作者:RayChiu_Labloy
    版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处


    目录

    什么是神经网络NN、人工神经网络ANN

    神经元(神经网络的基本单元)

    概念详解 

    神经元的数学模型:

    神经元到神经网络 

    其他常用的激活函数:

    常见的激活函数 

    如何选择激活函数 

    谈一下sigmoid和softmax 

    区分不同神经网络的三个要素:

    感知机

    定义 

    参数训练 

    与或非问题和线性分类器以及异或和非线性分类器

    线性可分情况 

    线性不可分情况

    多层前馈神经网络 

    定义: 

    单层和多层网络之间的问题 

    单节点输出和多节点输出

    多层网络的误差逆传播算法BP(BackPropagation)

    多层网络的理解 

    推导 

     标准BP算法和累计误差逆传播(accumulated error backpropagation)算法

     两种策略来缓解BP网络的过拟合:

            1.早停(early stopping)

            2.正则化(regularization)

     全局最小和局部最小

    训练两个阶段

    前向传播

    后向传播

    神经网络到深度学习的发展历史


    什么是神经网络NN、人工神经网络ANN

            人工神经网络(artificial neural network,ANN),简称神经网络(neural network,NN),是一种模仿生物神经网络的结构和功能的数学模型或计算模型神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。现代神经网络是一种非线性统计性数据建模工具,常用来对输入和输出间复杂的关系进行建模,或用来探索数据的模式。

    神经元(神经网络的基本单元)

    概念详解 

            1943年,McCulloch 和 Pitts 将生物神经网络的神经元结构与功能抽象为一个简单模型,这就是一直沿用至今的“M-P神经元模型”。结构如下图所示:

            其中图中 w或表示权重, 和Z是相乘求和的线性变换,和f函数是非线性变换的激活函数。

            在神经元模型中,神经元接收到来自 n 个其他神经元传输过来的输入信号{x1,x2...,xn},这些输入信号通过带权重的连接(connection)进行传递,神经元接收到的总输入值(就是图中的和Z)将与神经网络的阈值进行比较,然后通过“激活函数”(activation function)处理以产生神经元的输出。

              激活函数理想的是阶跃函数,它将输入值映射为0和1输出,“1”对应神经元兴奋,“0”则是抑制。但是这种阶跃结构具有不连续、不光滑等缺点,因此实际生产常用sigmoid作为激活函数,将输入值压缩至(0,1)区间。

    神经元的数学模型:

    神经元的计算: 

    神经元到神经网络 

            把许多这种神经元结构按照一定的层次结构连接起来就得到了神经网络

    其他常用的激活函数:

    常见的激活函数 

    如何选择激活函数 

            sigmoid激活函数这种非线性变换一般是在输出层做分类时使用,其他的比较常用的ReLU、tanh等都是在下边说的多层、深层神经网络中的隐藏层最后使用。

            注意:当然激活函数不一定是上边非线性的,准确的来说隐藏层必须是非线性的,而最后的输出层看情况而定,分类的情况下,二分类用sigmoid(softmax也可以二分类,二分类上和sigmoid一样),多分类用softmax,或者接多个sigmoid做多标签分类;但是如果是MSE损失的回归问题,就不用做非线性变换了,或者说什么都不用做,直接y=x输出即可。

    谈一下sigmoid和softmax 

            从本质上来说两者不一样,softmax是假设数据服从多项式分布,sigmoid是假设数据服从伯努利分布。 

            softmax不适合做多标签任务,因为根据softmax公式:

             可知softmax自带了归一化操作,所有类别的概率相加为1,因此会尽可能的把一个类的概率调整的很高,因此不适合多标签任务。

            而用逻辑回归sigmoid做多标签就没有归一化这个操作(有些框架为了好看会手动添加一个归一化),各类别概率不会互相影响。

            为什么softmax的各类输出概率会互相影响而sigmoid不会呢?这得从梯度下降的两个阶段说起,两个阶段下边会详细说。

            观察上边softmax传播图的蓝色线(蓝色线没有参数w,或者可以看作为1的w),结合softmax公式我们发现分母是综合了所有类别信息,,因此loss包含了所有类别的信息,反向传播求梯度也会影响到所有的参数w(w1到w12),那下一次正向传播求loss依然会综合所有的w的信息和类别信息得出loss,而sigmoid不是这样,我们看sigmoid公式:

            还有sigmoid传播图:

             sigmoid它只和当前的类别相关,因此求出的loss只包含当前类别的信息,反向求梯度也是只和自己类别相关的几个参数有关,比如最上边的类别输出只和w1、w2、w3、w4有关,那更新了这几个参数后再次正向传播求loss依然只和当前类别有关。

    区分不同神经网络的三个要素:

    • 激活函数:将神经元的净输入信号转换为单一的输入信号,以便进一步在网络中传播

    • 网络拓扑:描述了模型中神经元的数量以及层数和他们的连接方式

    • 训练算法:指定如何设置连接权重,以便抑制或增加神经元在输入信号中的比重

    感知机

            1958年,计算科学家Rosenblatt提出了由两层神经元组成的神经网络。他给它起了一个名字--“感知器”(Perceptron)(有的文献翻译成“感知机”,下文统一用“感知器”来指代)。

      感知器是当时首个可以学习的人工神经网络。Rosenblatt现场演示了其学习识别简单图像的过程,在当时的社会引起了轰动。

      人们认为已经发现了智能的奥秘,许多学者和科研机构纷纷投入到神经网络的研究中。美国军方大力资助了神经网络的研究,并认为神经网络比“原子弹工程”更重要。这段时间直到1969年才结束,这个时期可以看作神经网络的第一次高潮。

    定义 

            感知机是包含两层神经元的结构,这两层分别是输入层神经元和输出层神经元,输出层就是M-P神经元,亦称阈值逻辑单元、功能单元。

     

    参数训练 

            与神经元模型不同,感知器中的权值是通过训练得到的。因此,根据以前的知识我们知道,感知器类似一个逻辑回归模型,可以做线性分类任务。

      我们可以用决策分界来形象的表达分类的效果。决策分界就是在二维的数据平面中划出一条直线,当数据的维度是3维的时候,就是划出一个平面,当数据的维度是n维时,就是划出一个n-1维的超平面。

      下图显示了在二维平面中划出决策分界的效果,也就是感知器的分类效果。

     

             一般给定训练数据集,权重以及阈值θ(偏置项,可以看作一个固定输入为-0.1的“哑结点”(dummy node)),则感知机权重将这样调整:

     

             其中 在(0,1)范围内,称为学习率。

            可以看出,感知机若对训练集(x,y)预测正确,即,权重不会变化,如果有误差则会调整权重。

    与或非问题和线性分类器以及异或和非线性分类器

    线性可分情况 

            回顾神经元公式不加 f 这个激活函数就是线性计算的结果,是的,感知器就是线性分类器。 

            假如激活函数为阶跃函数,输入数据x1、x2只能取0或1,则:

             可以看到,图中a、b、c与或非可以通过训练,一定会收敛找到合适的权重(参数)w1、w2、θ组成的超平面分界线分开样本。d图这样非线性可分的问题则不能通过感知机学习到合适的解。

    线性不可分情况

            Minsky在1969年出版了一本叫《Perceptron》的书,里面用详细的数学证明了感知器的弱点,尤其是感知器对异或这样的简单分类任务都无法解决。

     

            只拥有一层功能神经元(M-P神经元)的感知机不可以解决,而两层及两层以上的功能神经元就可以完美解决了:

             如上图所示,两层感知机可以解决异或这种线性不可分问题,多了一层隐藏层,也可以说多了一层功能神经元层。相邻两层直接节点全互连,即全连接。

    多层前馈神经网络 

    定义: 

            隐藏层如果是多层的话就是“多层前馈神经网络”了:

    单层和多层网络之间的问题 

            多层网络可以有更多的隐藏层,也就会有更多的非线性变换,网络复杂度会随之更加复杂,因此有能力处理更加复杂的任务,但是不是越复杂越好,容易过拟合,如何理解复杂度,就类似二维平面找类别的分界线,简单的任务一条直线就可划分,困难的需要画出一个或多个极为复杂的不规则多边形才能正确分类,深层神经网络或者深度学习可以很好的处理这种非线性问题,当然深度学习的可解释性是非常差的,它是通过对网络的设计loss的设计加上基于训练得来的。

    单节点输出和多节点输出

            输出节点可以根据任务来定,例如多分类就是多个节点,参照上边softmax来看,如果是回归任务:

             当然sigmoid的二分类也是单节点输出。

    多层网络的误差逆传播算法BP(BackPropagation)

    多层网络的理解 

             多层网络的学习能力很强,但是训练多层网络就得用BP算法了。

            1986年,Rumelhar和Hinton等人提出了反向传播(Backpropagation,BP)算法,解决了两层神经网络所需要的复杂计算量问题,从而带动了业界使用两层神经网络研究的热潮。

     

            对于给定数据集D={(x1,y1),(x2,y2),...,(xm,ym)},其中,再定义一些变量:

             下图为一个拥有d个输入神经元,L个输出神经元和q个隐含神经元的多层前馈神经网络, 其中输出层第j个神经元的阈值用表示,隐层第h个神经元的阈值用表示,隐层和输出层的激活函数都用sigmoid函数:

             对于训练样本,假设神经网络输出为,即:

             则网络在这个样本上的均方误差为:

     

             任意参数v的更新公式和上边感知机类似:

     

    推导 

             下面以图中隐含层到输出层的连接权来进行推导。

             BP算法基于梯度下降的策略,以目标的负梯度方向对参数进行调整,对于误差和给定学习率η,有:

     

            这里一定要注意,求每个参数w变化是需要用相同的loss去对每个w求导得出梯度。 

             我们注意到先影响输出层第 j 个神经元的输入值,然后再进一步影响其输出,最后影响到均方误差。所以根据复合函数链式求导法则有:

     

             根据的定义可知:

     

             因为我们前边说了激活函数使用的sigmoid,sigmoid有如下性质:

             结合前边条件可得: 

     

             综合得:

     

            类似可以得到:

            其中表示的是隐含层的梯度:

             BP算法的目标是最小化训练集上的累计误差:

             学习率 η控制每一轮迭代更新得步长,太大容易震荡,太小更新太慢,参数更新过程是迭代进行,达到某个预设定得条件即可停止,一般精度够用即可。

     标准BP算法和累计误差逆传播(accumulated error backpropagation)算法

            上边我们推导得思路是标准BP算法,是基于一个训练样例的参数优化:

             这样会使得参数更新很频繁,并且参数间容易出现抵消现象,因此有了基于积累误差最小化的更新规则,就得到了积累误差逆传播(accumulated error backpropagation)算法。累积BP算法直接针对累计误差最小化,读取整个训练集D一遍后才对参数进行更新。

     两种策略来缓解BP网络的过拟合:

            1.早停(early stopping)

            将数据分成训练集和验证集,训练集用来计算梯度、更新连接权和阈值,验证集用来估计误差,若训练集误差降低但验证集误差升高,则停止训练,同时返回具有最小验证集误差的连接权和阈值。

            2.正则化(regularization)

     全局最小和局部最小

            我们训练的最终目的就是找到一组使得误差最小的参数,梯度下降是沿着负梯度方向找值,如果全局不止一个”谷底“,则我们可能陷入局部最小而不是全局最小,实际上我们停止训练的条件就是够用即可,不追求全局最小,但是我们到达的某个局部最小可能不满足停止条件,有几种方式可以跳出局部最小:

            1.以多组不同的参数值初始化多个神经网络,按标准化方法训练后,取其中误差最小的解作为最终的参数,这相当于从多个不同的初始点开始进行探索,这样就可能陷入不同的局部极小,从中进行有可能获得更接近全局最小的结果.
            2. 使用“模拟退火”技术,“模拟退火”在每一步都会以一定的概率接受比当前更差的结果,从而有助于“跳出”局部最小,在每一步的迭代的过程中,接受“次优解”的概率要随着时间的推移而不断的降低。

            以下图为例,模拟退火算法在搜索到局部最优解B后,会以一定的概率接受向右继续移动。也许经过几次这样的不是局部最优的移动后会到达B 和C之间的D点,于是就跳出了局部最小值B。

            3.使用“随机梯度下降”,与标准梯度下降精确计算梯度不一样,随机梯度下降法在计算梯度时加入随机的因素,于是即便其陷入到局部的极小值点,他计算的梯度仍可能不为0,这样就有可能跳出局部的极小值而继续进行搜索。 

    训练两个阶段

            神经网络训练和后边我们要说的深度神经网络训练一样都是根据梯度下降或者其变种来求参的,分为两个阶段:

    前向传播

            根据初始化的参数W(或者上一轮迭代得出的参数)和数据计算yhat 得出总loss

    后向传播

            根据loss求出每个w参数的梯度,并更新,完成一轮迭代。

    神经网络到深度学习的发展历史

            但是神经网络仍然存在若干的问题:尽管使用了BP算法,一次神经网络的训练仍然耗时太久,而且困扰训练优化的一个问题就是局部最优解问题,这使得神经网络的优化较为困难。同时,隐藏层的节点数需要调参,这使得使用不太方便,工程和研究人员对此多有抱怨。

      90年代中期,由Vapnik等人发明的SVM(Support Vector Machines,支持向量机)算法诞生,很快就在若干个方面体现出了对比神经网络的优势:无需调参;高效;全局最优解。基于以上种种理由,SVM迅速打败了神经网络算法成为主流。

     

            神经网络的研究再次陷入了冰河期。当时,只要你的论文中包含神经网络相关的字眼,非常容易被会议和期刊拒收,研究界那时对神经网络的不待见可想而知。

            在被人摒弃的10年中,有几个学者仍然在坚持研究。这其中的棋手就是加拿大多伦多大学的Geoffery Hinton教授。

      2006年,Hinton在《Science》和相关期刊上发表了论文,首次提出了“深度信念网络”的概念。与传统的训练方式不同,“深度信念网络”有一个“预训练”(pre-training)的过程,这可以方便的让神经网络中的权值找到一个接近最优解的值,之后再使用“微调”(fine-tuning)技术来对整个网络进行优化训练。这两个技术的运用大幅度减少了训练多层神经网络的时间。他给多层神经网络相关的学习方法赋予了一个新名词--“深度学习”。

       很快,深度学习在语音识别领域暂露头角。接着,2012年,深度学习技术又在图像识别领域大展拳脚。Hinton与他的学生在ImageNet竞赛中,用多层的卷积神经网络成功地对包含一千类别的一百万张图片进行了训练,取得了分类错误率15%的好成绩,这个成绩比第二名高了近11个百分点,充分证明了多层神经网络识别效果的优越性。

      在这之后,关于深度神经网络的研究与应用不断涌现。

            目前,深度神经网络在人工智能界占据统治地位。但凡有关人工智能的产业报道,必然离不开深度学习。神经网络界当下的四位引领者除了前文所说的Ng,Hinton以外,还有CNN的发明人Yann Lecun,以及《Deep Learning》的作者Bengio。

            多层神经网络的研究仍在进行中。现在最为火热的研究技术包括RNN,LSTM等,研究方向则是图像理解方面。图像理解技术是给计算机一幅图片,让它用语言来表达这幅图片的意思。ImageNet竞赛也在不断召开,有更多的方法涌现出来,刷新以往的正确率。

            神经网络的三起三落:

             下面说一下神经网络为什么能这么火热?简而言之,就是其学习效果的强大。随着神经网络的发展,其表示性能越来越强。

      从单层神经网络,到两层神经网络,再到多层神经网络,下图说明了,随着网络层数的增加,以及激活函数的调整,神经网络所能拟合的决策分界平面的能力。

     

             可以看出,随着层数增加,其非线性分界拟合能力不断增强。图中的分界线并不代表真实训练出的效果,更多的是示意效果。

      神经网络的研究与应用之所以能够不断地火热发展下去,与其强大的函数拟合能力是分不开关系的。

            当然,光有强大的内在能力,并不一定能成功。一个成功的技术与方法,不仅需要内因的作用,还需要时势与环境的配合。神经网络的发展背后的外在原因可以被总结为:更强的计算性能,更多的数据,以及更好的训练方法。只有满足这些条件时,神经网络的函数拟合能力才能得已体现,见下图

            之所以在单层神经网络年代,Rosenblat无法制作一个双层分类器,就在于当时的计算性能不足,Minsky也以此来打压神经网络。但是Minsky没有料到,仅仅10年以后,计算机CPU的快速发展已经使得我们可以做两层神经网络的训练,并且还有快速的学习算法BP。

      但是在两层神经网络快速流行的年代。更高层的神经网络由于计算性能的问题,以及一些计算方法的问题,其优势无法得到体现。直到2012年,研究人员发现,用于高性能计算的图形加速卡(GPU)可以极佳地匹配神经网络训练所需要的要求:高并行性,高存储,没有太多的控制需求,配合预训练等算法,神经网络才得以大放光彩。

      互联网时代,大量的数据被收集整理,更好的训练方法不断被发现。所有这一切都满足了多层神经网络发挥能力的条件。

            关于神经网络中的不同类别:

            具体到前馈神经网络中,就有了本文中所分别描述的三个网络:单层神经网络,双层神经网络,以及多层神经网络。深度学习中的CNN属于一种特殊的多层神经网络。 

           其实神经网络隐藏层多了 ,即很深层的神经网络就是深度学习了,参数越多模型复杂度越高,就可以处理更加复杂的任务,这就是深度学习的优势,深度学习所具有的”学习能力“主要归功于激活函数这个非线性变换上。

            神经网络属于机器学习算法,深度学习属于机器学习的分支,下一篇我们详细讨论深度学习。

    参考:神经网络浅讲:从神经元到深度学习 - 计算机的潜意识 - 博客园

    【如果对您有帮助,交个朋友给个一键三连吧,您的肯定是我博客高质量维护的动力!!!yadede

    展开全文
  • 多媒体计算机将加速计算机进人家庭和社会各个方面的进程,给人们的工作、生活和娱乐带来深刻的革命。 20世纪90年代以来,世界向着信息化社会发展的速度明显加快,而多媒体技术的应用在这一发展过程中发挥了极其重要...
  • 就像很多人只知道提起,不懂得放下,昨天有一位老师有一类人是行动力很强的人,求完美的人,事业很有成就,在座所有企业能提起,但是不懂得放下,所以身心疲惫,因为提起越多越累,不懂得提起和放下的智慧,此刻坐...
  • 《理解人性》- 读书笔记 - 第一部分精神的含义 文章目录《理解人性》- 读书笔记 - 第一部分精神的含义作者简介引言精神的含义一、精神的含义什么是意识?精神的作用我们的目的及目标导向二、精神生活的社会性绝对...
  • 传奇数学斯梅尔

    千次阅读 2018-03-19 00:00:00
    当代富有色彩的著名数学,首推长期工作在美国加州伯克利大学的史蒂芬 • 斯梅尔(Stephen Smale)教授。国内一般学术刊物介绍科学时,谨守学术成就,避忌色彩。然而,就斯梅尔而言,他的学术成就和他的生活色彩...
  • 为了解决深刻的问题,弱的奇偶违反和家庭数量,除了中微子质量的产生和暗化的含义外,最近提出了翻转三边化的框架,该框架用于统一3−3-1和左右对称。 物质稳定性。 在这项工作中,我们认为这种规格的完成自然会在...
  • 02 成为你自己思维的批判 目前的思维技巧够娴熟吗 心灵自主,天堂地狱皆其定。 《失乐园》作者 约翰·弥尔顿 没有任何东西比可靠的思维更有用。无论你处在怎样的环境和有怎样的目标,也无论你在哪里或面对怎样的...
  • 在计算机网络术语中,WAN的中文含义是广域网。电子计算机(electronic computer)通称电脑,是现代一种用于高速计算的电子计算机器,可以进行数值计算、逻辑计算,具有存储记忆功能,能够按照程序运行,自动、高速处理...
  • 科学做过实验:如果听到外语需要必须在大脑中翻译的话,正常速度的语言一般人只能翻译到第三个字就跟不上了,个别人能翻出四个,几乎没有人能超过四个。可大量的句子都是超过四个单词的呀。所以我们很多同学总在...
  • 关于WM_ERASEBKGND和WM_PAINT的深刻理解

    千次阅读 2019-12-12 23:07:53
    关于WM_ERASEBKGND和WM_PAINT的深刻理解 原创 ...
  • 一面 activity 生命周期 以及各个函数的含义 activity task 的四种类型 fragment 的生命周期 启动 server 的两种方式 intent 传输数据的大小限制 binder 的原理 activity 的启动流程 hashmap 实现原理,1.8 的改动...
  • 尤其适合大学生 和 初级程序员掌握的体系内容,资深程序员也可夯实基础
  • 老话

    千次阅读 2022-04-02 00:13:20
    (1)逃不掉的经济周期1926年,苏联经济学康德拉季耶夫研究资本主义经济周期和经济危机,提出了一个康波周期理论,人们又称长波理论。后来人们又发展出来朱格拉周期中波周期理论、基钦周期短波周期理论。中国已故...
  • 我这篇文章并不是简单的描述...项目上经历了一个工程到模块化再到组件化最后插件化,深刻理解项目不同阶段和不同体量的时候技术框架的选型。流程上不同阶段不同的方案,一直在探索最大的效率的协同开发。产品上从不断试
  • 从两位计算机科学图灵奖得主的综述性论文中所提出的观点以及美国联邦政府安全计划中...阐述了可信密码系统的含义及相关概念的区别与联系,并对其研究的内容和现状进行了深刻分析;最后总结了研究可信密码系统的意义。
  • 主要符号源于希腊语法们所用的小点,但常常改变其含义。 断句在自然语言处理中,显得十分重要,因为我们需要根据文本分词组成的一个大的迭代对象进行词的向量化,所以我们介绍一种python第三方库——jieba,中文...
  • 项目上经历了一个工程到模块化再到组件化最后插件化,深刻理解项目不同阶段和不同体量的时候技术框架的选型。流程上不同阶段不同的方案,一直在探索最大的效率的协同开发。产品上从不断试错到稳步发展的过程,也就是...
  • 我还没有进入代码来研究神经网络图像的大小,这对推理速度有很大的影响,但是演示肯定看起来非常流畅,FPS令人印象深刻! 尺寸大小,功率和成本 尺寸大小是影响实际应用的重要因素,它必须足够小以适合边缘设备。 ...
  • 实验03分析数据链路层帧结构 1. 掌握使用Wireshark分析俘获的踪迹文件的基本技能; 2. 深刻理解Ethernet帧结构。 3. 深刻理解IEEE 802.11帧结构。(可选) ...4. 掌握帧结构中每一字段的值和它的含义
  • 这一年,这些书:2021年读书笔记

    千次阅读 2021-12-31 22:32:21
    而现在,我们要思考的问题是:如何把这1000个客户服务得更加深刻、细致,让他们无法避开我们,并且能让他们自我繁殖。 中国经济的上半场,互联网革了实体的命;中国经济的下半场,互联网必须自我革命。 革命者的宿命...
  • 日本企业稻盛和夫的思想智慧

    千次阅读 2018-11-26 08:52:30
    面试的时候,跟老板谈话,谈到的管理学的理念: 稻盛哲学的核心(1)     日本著名企业稻盛和夫先生,总结出一个“人生和工作结果的方程式”,有时也称...
  • 01 人类:IDIOSYNCRATIC 在英语中,有一个很有趣的单词叫idiosyncratic,中文含义可以理解为特殊的、另类的。当我们看到一个问题,试图回答或者解决这个问题的时候,我们发现不同的人会看到问题的不同方面,这就是...
  • 数字化成熟度评估模型一文读尽

    千次阅读 2022-03-03 16:26:53
    对不不同类别的数据启动有差异的管理流程,企业使用了元数据管理、数据质量管理、主数据管理等应用,对数据的业务含义、业务规则、质量规则进行了统一的描述,在公司范围内形成一致性的理解,并在整个数据的生命周期...
  • 公众号900篇文章分类和索引

    千次阅读 2021-12-18 00:17:12
    间隔分区报错ORA-14758 变通执行truncate 9i下优化器模式的选择 领会ORA-01405错误的含义和解决 并行创建主键的问题延伸 使用并行创建主键约束的“奇葩”过程 delete操作对UNDO表空间容量的冲击 从rownum的SQL需求还...
  • 一位考研学长的走心经验分享

    千次阅读 多人点赞 2021-05-21 07:07:46
    你考得上么,就算你考上了,你能毕业么?你读三年研究生,和人家三年工作经验的能比么?大学时单片机老师当着全专业同学的面问我。我这个人记性比较好,时隔四年,研究生即将毕业,可还是可以清楚的把这位老师的话...
  • 【进大厂必学】3W字180张图学习Linux基础总结

    千次阅读 多人点赞 2021-05-22 10:39:50
    今天分享的这篇文章是 Linux 相关的基础知识,深一点的内容基本上没有,不过对于刚需小伙伴来说,也就够了,有时间的话,最好按照这些命令去试一试,敲一敲,这样记忆更加深刻。 老规矩,先看目录,文章比较长,建
  • 同态加密的含义

    万次阅读 多人点赞 2017-03-21 21:30:49
    下面的内容,如果可以接受符号表述,具有一点密码学的知识,对抽象代数有一定的了解的话,可能体会的更深刻哦。 同态加密具体如何定义? 我们在云计算应用场景下面进行介绍: Alice通过Cloud,以...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 14,173
精华内容 5,669
热门标签
关键字:

家的深刻含义