精华内容
下载资源
问答
  • 坐标下降

    2018-08-30 16:30:54
    同理:对所有的,其中g是可微的凸函数,每一个hi都是凸的,我们可以使用坐标下降寻求一个最小值。 一 综述 坐标下降法属于一种非梯度优化的方法,它在每步迭代中沿一个坐标的方向进行搜索,通过循环使用不同的坐标...

    给定一个可微的凸函数,如果在某一点x,使得f(x)在每一个坐标轴上都是最小值,那么f(x)是一个全局的最小值。如果f(x)不可微,则不满足。

    同理:对所有的,其中g是可微的凸函数,每一个hi都是凸的,我们可以使用坐标下降寻求一个最小值。

    一 综述

    坐标下降法属于一种非梯度优化的方法,它在每步迭代中沿一个坐标的方向进行搜索,通过循环使用不同的坐标方法来达到目标函数的局部极小值

    二 算法过程

    假设目标函数是求解f(x)f(x)的极小值,其中x=(x1,x2,…,xn)x=(x1,x2,…,xn)是一个n维的向量,我们从初始点x0x0开始(x0x0是我们猜想的一个初值)对k进行循环:

     

    相当于每次迭代都只是更新xx的一个维度,即把该维度当做变量,剩下的n-1个维度当作常量,通过最小化f(x)f(x)来找到该维度对应的新的值。坐标下降法就是通过迭代地构造序列x0,x1,x2,…x0,x1,x2,…来求解问题,即最终点收敛到期望的局部极小值点。通过上述操作,显然有:

     

    f(x0)≥f(x1)≥f(x2)≥…f(x0)≥f(x1)≥f(x2)≥…

    =========================================================================

    证明如下:

    当k=0k=0时,对应的f(x)f(x)的值为f(x0)=f(x01,x02,…,x0n)f(x0)=f(x10,x20,…,xn0)

    由于x11=argminf(x1,x02,…,x0n)x11=argminf(x1,x20,…,xn0),所以f(x11,x02,…,x0n)≤f(x01,x02,…,x0n)=f(x0)f(x11,x20,…,xn0)≤f(x10,x20,…,xn0)=f(x0),以此类推

    所以f(x11,x12,…,x0n)≤f(x11,x02,…,x0n)≤f(x01,x02,…,x0n)=f(x0)f(x11,x21,…,xn0)≤f(x11,x20,…,xn0)≤f(x10,x20,…,xn0)=f(x0)

    所以f(x1)=f(x11,x12,…,x1n)≤…f(x11,x12,…,x0n)≤f(x11,x02,…,x0n)≤f(x01,x02,…,x0n)=f(x0)f(x1)=f(x11,x21,…,xn1)≤…f(x11,x21,…,xn0)≤f(x11,x20,…,xn0)≤f(x10,x20,…,xn0)=f(x0)

    同理可得f(x2)≤f(x1)≤f(x0)f(x2)≤f(x1)≤f(x0),命题得证。

    ======================================================================

    相比梯度下降法而言,坐标下降法不需要计算目标函数的梯度,在每步迭代中仅需求解一维搜索问题,所以对于某些复杂的问题计算较为简便。但如果目标函数不光滑的话,坐标下降法可能会陷入非驻点。

    三 注意事项

    关于坐标下降法,有几点需要注意的:

    1.坐标下降的顺序是任意的,不一定非得按照从x1…xnx1…xn的顺序来,可以是从1到n的任意排列。

    2.坐标下降的关键在于一次一个地更新,所有的一起更新有可能会导致不收敛。

    3.坐标上升法和坐标下降法的本质一样,只不过目标函数成为求f(x)f(x)的极大值了,每次迭代过程minmin变成maxmax了。

     

    展开全文
  • 坐标下降和块坐标下降

    万次阅读 2018-07-24 13:49:51
    坐标下降和块坐标下降坐标下降法(英语:coordinate descent)是一种非梯度优化算法。算法在每次迭代中,在当前点处沿一个坐标方向进行一维搜索以求得一个函数的局部极小值。在整个过程中循环使用不同的坐标方向...

                           坐标下降和块坐标下降法

    坐标下降法英语:coordinate descent)是一种非梯度优化算法。算法在每次迭代中,在当前点处沿一个坐标方向进行一维搜索以求得一个函数的局部极小值。在整个过程中循环使用不同的坐标方向。对于不可拆分的函数而言,算法可能无法在较小的迭代步数中求得最优解。为了加速收敛,可以采用一个适当的坐标系,例如通过主成分分析获得一个坐标间尽可能不相互关联的新坐标系(参考自适应坐标下降法)。

    • 坐标下降优化方法为了找到一个函数的局部极小值,在每次迭代中可以在当前点处沿一个坐标方向进行一维搜索。在整个过程中循环使用不同的坐标方向。一个周期的一维搜索迭代过程相当于一个梯度迭代。 其实,gradient descent 方法是利用目标函数的导数(梯度)来确定搜索方向的,而该梯度方向可能不与任何坐标轴平行。而coordinate descent方法是利用当前坐标系统进行搜索,不需要求目标函数的导数,只按照某一坐标方向进行搜索最小值。坐标下降法在稀疏矩阵上的计算速度非常快,同时也是Lasso回归最快的解法。

    算法描述

    坐标下降法基于的思想是多变量函数F(\mathbf{x})可以通过每次沿一个方向优化来获取最小值。与通过梯度获取最速下降的方向不同,在坐标下降法中,优化方向从算法一开始就予以固定。例如,可以选择线性空间的一组\mathbf{e}_1, \mathbf{e}_2, \dots, \mathbf{e}_n作为搜索方向。 在算法中,循环最小化各个坐标方向上的目标函数值。亦即,如果\mathbf{x}^k已给定,那么,\mathbf{x}^{k+1}的第i个维度为

    \mathbf{x}^{k+1}_i = \underset{y\in\mathbb R}{\operatorname{arg\,min}}\; f(x^{k+1}_1,...,x^{k+1}_{i-1},y,x^k_{i+1},...,x^k_n);

    因而,从一个初始的猜测值\mathbf{x}_0以求得函数F的局部最优值,可以迭代获得\mathbf{x}_0, \mathbf{x}_1, \mathbf{x}_2, \dots的序列。

    通过在每一次迭代中采用一维搜索,可以很自然地获得不等式

    F(\mathbf{x}_0)\ge F(\mathbf{x}_1)\ge F(\mathbf{x}_2)\ge \cdots,

    可以知道,这一序列与最速下降具有类似的收敛性质。如果在某次迭代中,函数得不到优化,说明一个驻点已经达到。

    这一过程可以用下图表示。

    Coordinate descent.jpg

    例子

    对于非平滑函数,坐标下降法可能会遇到问题。下图展示了当函数等高线非平滑时,算法可能在非驻点中断执行。

    Nonsmooth.jpg

    对所有的,其中g是可微的凸函数,每一个hi都是凸的,我们可以使用坐标下降寻求一个最小值,我们从一个最初的猜想开始,对k进行循环:

    每一次我们解决了,我们都会使用新的值。

    Tseng (2001)的开创性工作证明:对这种f(f在紧集上连续,且f到达了其最小值),的极限值,k=1,2,3….是f的一个最小元(minimizer)。

    在实分析领域:

    随后收敛与x*( Bolzano-Weierstrass)

    收敛于f*( monotoneconvergence)

    其中:

    坐标下降的顺序是任意的,可以是从1到n的任意排列。

    可以在任何地方将单个的坐标替代成坐标块

    关键在于一次一个地更新,所有的一起更新有可能会导致不收敛

     

    我们现在讨论一下坐标下降的应用:

     

    线性回归:

     

    ,其中,A有p列:

    最小化xi,对所有的xj,j不等于i:

    解得:

    坐标下降重复这个更新对所有的

    对比坐标下降与梯度下降在线性回归中的表现(100个实例,n=100,p=20)

    将坐标下降的一圈与梯度下降的一次迭代对比是不是公平呢?是的。

    其中r=y-Ax。每一次的坐标更新需要O(n)个操作,其中O(n)去更新r,O(n)去计算,所以一圈就需要O(np),跟梯度下降是一样的。

    我们用相同的例子,用梯度下降进行比较,似乎是与计算梯度下降的最优性相违背。

    那么坐标下降是一个一阶的方法吗?事实上不是,它使用了比一阶更多的信息。

     

    现在我们再关注一下支持向量机:

    SVM对偶中的坐标下降策略:

    SMO(Sequentialminimal optimization)算法是两块的坐标下降,使用贪心法选择下一块,而不是用循环。

    回调互补松弛条件(complementaryslackness conditions):

    v,d,s是原始的系数,截距和松弛,其中,使用任何的(1)中i使得来计算d,利用(1)(2)来计算2.

    SMO重复下面两步:

    选出不满足互补松弛的αi,αj

    最小化αi,αj使所有的变量满足条件

    第一步使用启发式的方法贪心得寻找αi,αj,第二步使用等式约束。

    Group Lasso 

    Yuan在2006年将lasso方法推广到group上面,诞生了group lasso。我们可以将所有变量分组,然后在目标函数中惩罚每一组的L2范数,这样达到的效果就是可以将一整组的系数同时消成零,即抹掉一整组的变量,这种手法叫做Group Lasso 分组最小角回归算法。其目标函数为: 

    minβ(||Y−Xβ||22+λ∑g=1G||ql−−√βIg||2)minβ(||Y−Xβ||22+λ∑g=1G||qlβIg||2)

    在group lasso中,将p个特征分成G组,其中i的取值为1,2..g.. G。IgIg是g组的特征下标, ql−−√ql是每一组的加权,可以按需调节。不同于Lasso 方法将每个特征的系数项的绝对值加总, 这里所加总的是每个组系数的 L2 范数,在优化的过程中,该结构尽量选出更少的组(组间稀疏),而组内是L2范数,稀疏约束没那么强。

    容易看出,group lasso是对lasso的一种推广,即将特征分组后的lasso。显然,如果每个组的特征个数都是1,则group lasso就回归到原始的lasso。为了求解group lasso, 可以首先假设组内特征是正交的,针对这种情形可以利用分块坐标下降法求解,对于非正交的情形,可以首先对组内特征施加正交化。

    Group Lasso 可以应用块坐标下降法来求解(BCD),算法框架如下:

    具体内容参考http://www.math.ucla.edu/~wotaoyin/papers/bcu/

    展开全文
  • 坐标下降+随机梯度下降.pdf
  • 坐标下降

    2020-01-03 00:21:57
    一、基本思想 ...二、坐标下降法的适用性 2.1 可微凸函数 2.2 不可微凸函数 2.3 可微凸函数和不可微凸函数的联合函数 三、注意事项 3.1 坐标轴迭代的无序性 3.2 块坐标轴下降法 3.3 坐标轴的相关性影响 ...

    一、基本思想

    在前文梯度下降法(一)从导数到梯度下降法的基本逻辑给出了梯度下降法的迭代方程: x : = x − λ ∇ f ( x ) \boldsymbol x:=\boldsymbol x- \lambda\nabla f(\boldsymbol x) x:=xλf(x)若将上述写为每个分量 x i x_i xi的形式,即为: x i : = x i − λ ∂ f ∂ x i x_i:=x_i-\lambda \frac{\partial f}{\partial x_i} xi:=xiλxif这表明,梯度下降法在每步迭代过程中,其各分量上的计算是彼此独立的。

    这启发我们:能否将每步迭代按照坐标轴的顺序进行分解?其实这就是坐标下降法的基本思想
    在这里插入图片描述
    坐标下降法可理解将梯度下降法进行分治处理,但其又不依赖于梯度,因此可以广泛用于不可微的凸函数优化问题中。

    假设目标优化凸函数为 f ( x 1 , x 2 , . . . x n ) f(x_1,x_2,...x_n) f(x1,x2,...xn),则坐标下降法在完整计算过程为:
    (1)选取 x 2 , x 3 , . . . , x n x_2,x_3,...,x_n x2,x3,...,xn的初值;
    (2)在每轮迭代中:
    a)固定 x 2 , x 3 , . . . , x n x_2,x_3,...,x_n x2,x3,...,xn,将 x 1 x_1 x1作为自变量,采用导数或线性搜索等方法,搜索得到 arg min ⁡ x 1 ∗ f ( x 1 , x 2 , . . . x n ) \argmin_{x_1^*}f(x_1,x_2,...x_n) x1argminf(x1,x2,...xn)
    b) 将得到的 x 1 ∗ x_1^* x1代入凸函数,同时固定 x 3 , x 4 , . . . , x n x_3,x_4,...,x_n x3,x4,...,xn,搜索得到 arg min ⁡ x 2 ∗ f ( x 1 ∗ , x 2 , . . . x n ) \argmin_{x_2^*}f(x_1^*,x_2,...x_n) x2argminf(x1,x2,...xn)
    c) 将得到的 x 1 ∗ , x 2 ∗ x_1^*,x_2^* x1,x2代入凸函数,同时固定 x 4 , . . . , x n x_4,...,x_n x4,...,xn,搜索得到 arg min ⁡ x 3 ∗ f ( x 1 ∗ , x 2 ∗ , . . . x n ) \argmin_{x_3^*}f(x_1^*,x_2^*,...x_n) x3argminf(x1,x2,...xn)

    d)得到本轮迭代后的一组值 x 1 ∗ , x 2 ∗ , . . . , x n ∗ x_1^*,x^*_2,...,x_n^* x1,x2,...,xn
    e) 若满足迭代终止条件,则得到最优值,否则进入下一轮迭代。

    坐标下降法中每一轮完整的迭代过程相当于梯度下降法中沿着负梯度方向的一次迭代。其区别在于,梯度下降法明确知道其迭代的方向为梯度下降方向(即函数变化最大的方向),而坐标下降法只能交替着在各坐标上进行最小化的尝试。

    那么如何保证坐标下降法的每轮迭代都能够使函数值有所下降,下面简要的给出证明:因为在每轮迭代过程中,均是沿着各坐标轴方向的最小化过程,所以有: f ( x 1 , x 2 , . . . , x n ) ≥ f ( x 1 ∗ , x 2 , . . . x n ) ≥ f ( x 1 ∗ , x 2 ∗ , . . . x n ) ≥ f ( x 1 ∗ , x 2 ∗ , . . . x n ∗ ) f(x_1,x_2,...,x_n)\ge f(x_1^*,x_2,...x_n)\ge f(x_1^*,x_2^*,...x_n)\ge f(x_1^*,x_2^*,...x_n^*) f(x1,x2,...,xn)f(x1,x2,...xn)f(x1,x2,...xn)f(x1,x2,...xn)这表明了,坐标下降法的每步迭代都是有效的。

    二、坐标下降法的全局最小值

    那坐标下降法又是否能保证迭代后的收敛结果即为凸函数的全局最小值呢?这取决于凸函数的可微性!

    2.1 可微凸函数

    性质一:对于可微的凸函数,坐标下降法的收敛处各坐标方向的偏导必为0;否则函数沿着坐标轴方向必存在函数值进一步下降的空间,这与坐标下降法的迭代终止条件相违背。

    性质二:可微凸函数的Hessen矩阵为正定阵。

    因此,假设收敛后的坐标点为 x \boldsymbol x x,函数上的任意为 y \boldsymbol y y,由二阶泰勒展开可知: f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) + ( y − x ) T H ( x ) ( y − x ) + O 2 ( y − x ) ≥ f ( x ) + 0 = f ( x ) \begin{aligned}f(\boldsymbol y)&=f(\boldsymbol x)+\nabla f(\boldsymbol x)^T(\boldsymbol y-\boldsymbol x)+(\boldsymbol y-\boldsymbol x)^TH(\boldsymbol x)(\boldsymbol y-\boldsymbol x)+O^2(\boldsymbol y-\boldsymbol x)\\&\ge f(\boldsymbol x)+0\\&=f(\boldsymbol x)\end{aligned} f(y)=f(x)+f(x)T(yx)+(yx)TH(x)(yx)+O2(yx)f(x)+0=f(x)

    因此,对于可微凸函数,坐标下降法的最终结果即为全局最小值点。

    2.2 不可微凸函数

    对于不可微凸函数,很容易举出坐标下降法不适用的例子。

    如在下图的等高线图中,蓝色点处为全局最小值点。若以红色点A为初始点进行坐标下降法的迭代。因为沿着平面内两根轴都无法进一步下降,所以最终值仍为红色点A。因此,此时的坐标下降法失效。
    在这里插入图片描述

    2.3 可微凸函数和不可微凸函数的联合函数

    假设凸函数为可微凸函数和不可微凸函数的和: f ( x ) = g ( x ) + ∑ i h ( x i ) f(\boldsymbol x)=g(\boldsymbol x)+\sum _ih(x_i) f(x)=g(x)+ih(xi)其中, g ( x ) g(\boldsymbol x_) g(x)为可微凸函数,而 h ( x ) h(\boldsymbol x) h(x)为不可微凸函数,且可写成各坐标轴方向的和。

    因此,假设收敛后的坐标点为 x \boldsymbol x x,函数上的任意为 y \boldsymbol y y,可知: f ( y ) − f ( x ) = g ( y ) − g ( x ) + ∑ i ( h ( y i ) − h ( x i ) ) ≥ ∇ g ( x ) T ( y − x ) + ∑ i ( h ( y i ) − h ( x i ) ) = ∑ i ( ∇ i g ( x ) ( y i − x i ) + h ( y i ) − h ( x i ) ) ≥ 0 \begin{aligned} f(\boldsymbol y)-f(\boldsymbol x)=&g(\boldsymbol y)-g(\boldsymbol x)+\sum_i (h(y_i)-h(x_i)) \\\ge &\nabla g(\boldsymbol x)^T(\boldsymbol y-\boldsymbol x)+\sum_i (h(y_i)-h(x_i))\\=&\sum_i (\nabla _ig(\boldsymbol x)(y_i-x_i)+h(y_i)-h(x_i))\\\ge&0\end{aligned} f(y)f(x)==g(y)g(x)+i(h(yi)h(xi))g(x)T(yx)+i(h(yi)h(xi))i(ig(x)(yixi)+h(yi)h(xi))0所以,在这种情况下,通过坐标下降法仍可得到全局最优解。

    三、注意事项

    坐标下降法作为一种有效的解决无梯度凸函数优化问题的方法,在使用时还应注意如下事项。

    3.1 坐标轴迭代的无序性

    在前文介绍坐标轴下降法每轮迭代过程中,坐标轴是按照1、2…n的顺序轮转的。根据坐标轴的对称性,完全可以打乱这种顺序,进行迭代。

    3.2 块坐标轴下降法

    在前文介绍坐标轴下降法每轮迭代过程中,每一次坐标轴轮转都只考虑一个坐标轴为变量,而其它方向固定。在实际使用中,还经常采用块坐标轴下降法,即每次将若干个坐标轴为变量,而剩下的坐标轴固定。

    3.3 坐标轴的相关性影响

    在坐标轴下降法中,若各坐标轴存在较强的相关性,则在每一次坐标的最优化搜索过程中受被固定住的相关坐标的影像,其搜索范围会受到严重压缩,从而导致迭代效率的降低。此时,在坐标轴下降法前可考虑对数据进行PCA等降维处理,使得其坐标轴相互独立。

    展开全文
  • 坐标下降与梯度下降

    千次阅读 2017-09-06 15:57:50
    本文是对坐标上升、坐标下降及梯度下降的关系的个人总结,欢迎大家讨论。 1.坐标上升法:坐标上升与坐标下降可以看做是一对,坐标上升是用来求解max最优化问题,坐标下降用于求min最优化问题,但是两者的...
    本文是对坐标上升、坐标下降及梯度下降的关系的个人总结,欢迎大家讨论。

    1.坐标上升法:坐标上升与坐标下降可以看做是一对,坐标上升是用来求解max最优化问题,坐标下降用于求min最优化问题,但是两者的执行步骤类似,执行原理相同。
    例如要求接一个max_f(x1,x2,...,xn)的问题,其中各个xi是自变量,如果应用坐标上升法求解,其执行步骤就是:
    1.首先给定一个初始点,如 X_0=(x1,x2,...,xn);
    2.for dim=1:n
    固定xi;(其中i是除dim以外的其他维度)
    以x_dim为自变量求取使得f取得最大值的x_dim;
      end 
    3.循环执行步骤2,直到f的值不再变化或变化很小。

    总结:其关键点就是每次只变换一个维度xi,而其他维度都用当前值进行固定,如此循环迭代,最后得到最优解。

    2.坐标下降法与上述过程类似,不过在第2步求取最优x_dim的值时,变为使得f最小的x_dim;

    3.梯度下降法又称为最速下降法,他也是下降法,不过和坐标下降法的主要区别就是多了一个下降方向的选取,在坐标下降中下降方向是沿着每一维的坐标轴方向进行的,也就是方向是类似于(0,0,1,0,0)、(0,0,0,1,0)(假设是5维)这种形式的,而梯度下降法中,下降方向变换为函数在当前点的梯度方向,当维度很高时,梯度下降的优势就要比坐标下降明显很多。
      梯度下降法的一个出发点是: f沿着f的梯度反方向下降最快。 这一点用文字而言,比较好理解,就是沿着f的梯度反方向搜索前进直到最优就是了。如果用步骤来描述的话就是:
      1.给定一个初始值,如 X_0=(x1,x2,...,xn);
      2.求f在此点的梯度 f'(X_0);
      3.确定下一点的位置: X_1 = X_0 - a·f'(X_0);(a>0且一般都比较小,相当于在f的梯度反方向走了较 小的一步)
       4.求f(X_1),如果与f(X_0)的差在一定范围内,则停止,否则令X_0=X_1,循环2,3,4.
    展开全文
  • 利用随机坐标下降法和循环坐标下降法求解lasso回归,并作比较。
  • 坐标下降法matlab代码SNMF 我们 BSUM 算法的 MATLAB 代码,用于重现我们在 SNMF 研究方面的工作。 只需运行 main_compare.m,您将获得所有最先进算法的比较结果 要获得其他数字的结果,可能需要稍作修改。 参考: ...
  • 坐标下降法Python.txt

    2021-08-21 09:17:21
    坐标下降法Python.txt
  • 坐标下降+随机梯度下降 坐标轴下降法(Coordinate Descent, CD)是一种迭代法,通过启发式的方法一步步的迭代求解函数的最小值,和梯度下降法(GD)不同的时候,坐标轴下降法是沿着坐标轴的方向去下降,而不是采用...
  • BCD块坐标下降方法

    2020-08-25 19:44:31
    块坐标算法描述,块坐标下降(BCD)方法由于迭代成本低、内存需求低、易于并行化以及能够发掘问题结构,在大规模数值优化中得到了广泛的应用。 Block coordinate descent (BCD) methods arewidely-used for large-...
  • 坐标下降优化算法

    千次阅读 2016-01-12 17:43:06
    坐标下降优化方法是一种非梯度优化算法。为了找到一个函数的局部极小值,在每次迭代中可以在当前点处沿一个坐标方向进行一维搜索。在整个过程中循环使用不同的坐标方向。一个周期的一维搜索迭代过程相当于一个梯度...
  • Lasso回归的坐标下降法推导

    万次阅读 2017-08-22 21:38:15
    本文介绍了Lasso回归的目标函数,以及使用坐标下降法求解Lasso回归问题的步骤,最后介绍了Lasso回归的概率解释。
  • 循环坐标下降

    2019-11-10 13:25:24
    循环坐标下降法去模拟全身的动捕。
  • 深度学习中块坐标下降的全局收敛
  • 使用列坐标下降的稀疏非负张量分解
  • 坐标下降算法BCD——让块坐标下降法实现更快更贪婪的规则、消息传递、活动集复杂性和超线性收敛 Let's Make Block Coordinate Descent Go Fast Faster Greedy Rules, Message-Passing, Active-Set Complexity, ...
  • 基于循环坐标下降法的蛋白质环结构建模
  • 利用坐标下降实现并行稀疏子空间聚类.pdf
  • 匝道损耗线性规划支持向量机的坐标下降算法
  • 起因因为求解SVM的最牛算法SMO算法,使用的时坐标下降法的思路,所以学习一下这个算法。方法某函数包含多个自变量,需要求这个函数的最大或最小值时,可以应用此坐标下降法(最小值)或坐标上升法(最大值)。其过程...
  • 十二、坐标下降
  • 一种求解支持向量机的剪裁双坐标下降算法
  • 简述坐标下降

    2018-09-24 19:30:40
    坐标下降法属于一种非梯度优化的方法,它在每步迭代中沿一个坐标的方向进行搜索,通过循环使用不同的坐标方法来达到目标函数的局部极小值。 二 算法过程 假设目标函数是求解f(x)f(x)的极小值,其中x=(x1,x2,…,xn)...
  • BCDNPKL:使用块坐标下降的可扩展非参数内核学习
  • 一种适合于大数据的并行坐标下降

    千次阅读 多人点赞 2014-06-03 23:43:00
    但在大数据的背景下,尤其对于并行实现来说,优化算法通常是越简单越好,如坐标下降法(CD)和随机梯度下降法(SCG)就比较受欢迎。本文是阅读完论文 Distributed Coordinate Descent Method for Learning with Big ...
  • 针对非光滑损失问题提出一种新的坐标下降算法, 采用排序搜索的方式求解子问题解析解。分析了算法的时间复杂度, 并给出了三种提高收敛速度的实用技巧。实验表明算法对正则化Hinge损失问题具有良好的性能, 达到了预期...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 46,105
精华内容 18,442
关键字:

坐标下降