精华内容
下载资源
问答
  •  最近公司做的东西要在linux 64位机器上测试,环境部署交给我了,感觉挺有挑战的。  以前只是接触过一些linux简单的配置和一些软件的安装和运行,还没接触过64位的机器,很多软件都要用64位的,听头说...

          最近公司做的东西要在linux 64位机器上测试,环境部署交给我了,感觉挺有挑战的。

           以前只是接触过一些linux简单的配置和一些软件的安装和运行,还没接触过64位的机器,很多软件都要用64位的,听头说下载很多应用在32位机器上跑步了,64位性能要好,没办法,硬着头皮上了。在上面碰到很多问题,用的是jdk1.6.0_23  64位的,jboss 服务器,activeMQ5.3.2,应用的包太多了,很多在windows下没问题的应用跑在linux 64位机器上就出问题了,刚开始不知道什么原因。

           后来查了下,很多加载顺序不一样,java中的jar包很容易冲突,服务器只识别先加载的jar包,原因确实很难找。

            看来,以后还要多研究下64的linux,感觉机器跑得还是挺快的,E8400 3.0mHZ,启动服务器比xp x86  2.6mhz的机器快了一个等级。

    展开全文
  • 机器学习 SVM感想

    2020-05-03 23:38:05
    SVM向量机的机制可以理解为:支撑向量机如何解决“不适定问题呢”?SVM要找到一条泛化性比较好的决策边界,就是这条直线要离两个分类都尽可能的远,我们认为这样的决策边界就是好的。 其中有,在线性可分问题中,...

    SVM向量机的机制可以理解为:支撑向量机如何解决“不适定问题呢”?SVM要找到一条泛化性比较好的决策边界,就是这条直线要离两个分类都尽可能的远,我们认为这样的决策边界就是好的。

    其中有,在线性可分问题中,对于样本点来说,存在一根直线可以将样本点划分,我们称之为Hard Margin SVM;但是(同样线性不可分),有时候会出现不那么完美,样本点会有一些噪声或者异常点,并不能完全分开。即没有一条直线可以将样本分成两类。那么就提出了Soft Margin SVM。就是对于svm的最后最有结果存在一定的容错率。更加适合在存在噪声的数据之中。

    展开全文
  • 最近在学机器学习课程,主要是在做吴恩达简版机器学习课后作业,不过原版的作业要求用octave/matlab完成,因为现在python的流行,我也尝试在看着别人参考程序的基础上自己试图模仿着写一下程序 现在把一些小的感想...

    最近在学机器学习课程,主要是在做吴恩达简版机器学习课后作业,不过原版的作业要求用octave/matlab完成,因为现在python的流行,我也尝试在看着别人参考程序的基础上自己试图模仿着写一下程序

    现在把一些小的感想或者感悟总结如下:
    过程

    1、从文件读取数据

    2、截取片段,将X、y数据变成矩阵形式(ndarray),并将参数矩阵θ初始化,通常都是全0或者全1的行向量或列向量

    3、根据公式写出假设函数,在此步骤中,书本上的公式形如θTX的,在代码中并不一定就是θTX,它有可能是XTθ或者θX等形式,具体要看X的shape,θ在初始化时是行向量还是列向量,X与θ或者其转置相乘之后要和y的shape相同,才便于后续计算

    4、根据公式写出代价函数

    5、写出计算梯度的函数或者批量梯度下降的函数

    6、通过初始化学习率α以及迭代次数,算出迭代若干次之后的代价函数,如果代价函数已经是最小,将此时的参数向量θ取出来代入假设函数中去求得预测的结果(线性回归);通过高级算法算出使损失函数最小时的参数向量θ取出来代入假设函数中去预测分类的结果(逻辑回归)

    7、将预测的值与实际值对比得到预测的准确率

     

    当然,如果第1、2步中如果数据范围差异过大,还要先进行特征缩放,4-6步中,可以适当加入正规化项,对假设函数中高阶项进行惩罚以减少过拟合现象。在第2步和第6步之后还可以通过matplotlib画图,将数据可视化,以便于观察和分析。

    第4步写代价函数时,使用向量化的方法可以使代码更简洁,它们自己就可以加在一起

    第6步使用高级算法时,传的参需要前面自定义的代价函数,代价函数的形参中θ必须在首位,否则会出错

    根据公式写各种函数时,要注意对于ndarray类型的数据来说X*y是向量的乘法,即X和y矩阵中行标和列标相等的元素分别相乘,而X@y才表示矩阵的简洁,这点千万要注意

     

    截止今天为止,也只勉强完成了两次练习的内容,还有一些不理解的地方,对于画图的程序也没仔细研究。下来需要慢慢补上。

    重新翻了一下中信出版社魏贞原的《机器学习python实践》,发现这真是一本不可多得的好书,以后用python完成吴恩达简版ML课后练习时就要用它当参考书了。

    转载于:https://www.cnblogs.com/flyingtester/p/10970831.html

    展开全文
  • 摘要:国际机器学习大会(ICML)源于1980年卡内基-梅隆大学举办的机器学习研讨会,如今已发展为国际机器学习学会(IMLS)主办的年度机器学习国际顶级会议,代表机器学习学术界最高水平。大数据时代,ICML又有什么...
    摘要:国际机器学习大会(ICML)源于1980年卡内基-梅隆大学举办的机器学习研讨会,如今已发展为国际机器学习学会(IMLS)主办的年度机器学习国际顶级会议,代表机器学习学术界最高水平。大数据时代,ICML又有什么看点?

    国际机器学习大会(ICML)源于1980年在卡内基-梅隆大学(CMU)举办的机器学习研讨会。几十年过去了,ICML如今已发展为由国际机器学习学会(IMLS)主办的年度机器学习国际顶级会议,可以说代表了当今机器学习学术界的最高水平。那么,在“大数据”时代的背景下,ICML又有什么看点呢?今年,第三十届国际机器学习大会(ICML 2013)于6月16-21日在美国亚特兰大举行,下面我与各位读者一起分享一下我的参会感想。

    可扩展的大规模图学习与推断算法

    可扩展性(Scalability)可谓是贯穿今年ICML的一大主线。首先,什么是可扩展性?通俗的说,就是让传统的机器学习算法能够适应并处理海量数据(如上百亿级别的文件)。在结构化数据普遍存在的今天,可扩展的图算法,尤其是可扩展的复杂概率图算法尤其引人注目。到底实现可扩展的图结构算法有什么困难?一个显而易见的难点就在于:数据样本之间往往有较强的依赖性,所以MapReduce这种对数据进行“分割-计算-合并”处理的传统数据并行化方法可能并不直接适用于图结构的并行化。

    在ICML开幕前一天的结构化学习研讨会上,Facebook数据科学家Jonathan Chang就介绍了他们面临的实际问题:Facebook的在线社交网络有大约109个结点(用户),以及大约1012条边(关系)。 在这种规模的图结构里,就算仅仅是计算所有用户好友的好友(Friends of Friends)这一简单属性,如果不使用高效的图计算模型,也可能产生庞大的开销和非最优的结果。Jonathan接着介绍了他们的解决方法:Giraph,一种基于图灵奖得主Leslie Valiant在20世纪80年代推出的Bulk Synchronous Parallel(BSP)模型衍生而来的开源工具。Giraph其实可以被看成是近年来Google Pregel迭代计算模型的开源版本:在这个以结点为中心的模型的每次迭代计算中,结点处理上次收到的消息,发送消息给其他结点,并且改变自身结点、边或者拓扑结构。当Jonathan被问到与GraphLab的对比时,他表示Facebook曾经尝试过GraphLab,但并不能达到他们的需求。非常有意思的是,Carlos Guestrin正好将在本次ICML大会上做关于GraphLab最新进展的主题报告。

    第二天一早,会场早已座无虚席。ICML大会主席Michael Littman简短介绍后,Carlos Guestrin这位机器学习的新生代领军人物就正式登台了。说到GraphLab,相信大家不会过于陌生:GraphLab三年前诞生于CMU机器学习系,主要目的是为了并行化复杂的图算法。

    Carlos接下来介绍了他们开发GraphLab的心路历程:早期推出的第一代GraphLab,在许多任务中取得了非常惊人的表现。如GraphLab1对于Never-Ending Language Learning(Tom Mitchell的永不停息机器学习系统)的CoEM算法的并行化实验,所需时间仅仅是Hadoop的0.3%。然而,GraphLab1在处理14亿结点、67亿条边的Altavista数据集上失败了。为什么呢?在分析了数据后,他们发现Altavista服从自然图的Power Law分布属性,即有1%的结点与53%的边相连,而这些高度数的结点会导致他们原先的算法失效,并且使得图结构很难被分割。同时,他也介绍了Pregel的问题,由于Pregel/Giraph是同步类算法,很多情况效率也不如非同步算法,在自然图上也会发生此类问题。2012年推出的GraphLab2对自然图计算的瓶颈问题进行了改进:通过把计算迁移到数据上,他们设法并行化高度数的结点,并且设计了有效的适应自然图Power Law分布的图分割算法。如今,GraphLab2在处理Altavista的数据上已经有了重大突破,使用1024个核与4.4TB的内存,现在只需要11分钟的处理时间。最后,Carlos介绍了GraphLab3的规划:GraphLab3将结合第一代的代码可读性与第二代强大的可扩展性特点,使得图并行算法能被更多的开发者所使用。另外值得注意的是,如今GraphLab已正式注册了公司,并且获得了675万美元的风险投资。

    深度学习热潮的延续

    随着深度学习概念的兴起,本届ICML自然也是少不了许多关于特征学习以及深度神经网络的工作。由于深度学习的学术界领头人Geoffrey Hinton老先生已归顺了Google,所以加拿大蒙特利尔大学的Yoshua Bengio教授在本次大会中显得非常活跃。首先在6月16日的研讨会上,Yoshua介绍了他近期一些较为“激进”的思想:他认为传统的隐变量概率图模型在实际使用中会产生很多的局部最优区域,这些局部最优区域甚至可能会超过经典马尔科夫链蒙特卡洛(MCMC)推断算法的采样次数,最终导致得到非优的推断结果。Yoshua提出,传统的隐变量模型可以被Denoising Autoencoders(DA)替代。DA可以被看作是一种生成式深度学习模型(generative model),并可使用任意的变量(离散或连续)、任意的噪音,以及任意的损失函数。Yoshua最新研究成果表明,DA不仅在输入层,在中间计算层也可以加入噪音建模。他认为此算法可以用经典的反向传播算法训练参数,从而克服显式传统隐变量模型的缺点。在6月17日的大会上,Yoshua还有一项有意思的工作就是介绍Recurrent Neural Networks训练过程中梯度(gradient)的消失与爆炸(过大)现象。其实梯度的突然消失与爆炸在各类随机梯度下降算法中普遍存在,也是一个优化中常见的问题。他们解决的方法是将爆炸的梯度重新规整,并且将消失的梯度正则化。

    6月19日,Google语音搜索组Vincent Vanhoucke做了关于深度学习在语音识别中应用的精彩主题演讲。Vincent从语音的基础(声学模型与语言模型),堪称经典的高斯混合模型-隐马尔科夫模型,语者适应技术,讲到如今基于深度学习的语音识别。深度学习在语音学习的应用源自一个跨领域的经典合作:故事是2010年前后,微软和Google的语音组分别招了Hinton老先生的几个学生做实习,结果发现如果不用传统的MFCC/PLP特征,而用深度学习直接从语音信号里学习特征,并且用深度学习技术对声学模型建模,居然可以在标准数据集TIMIT上取得惊人的突破。以Google为例,3个月时间下来,语音搜索的相对错误率竟然减少了10%。Vincent介绍说,其实语音识别对神经网络并不陌生,早在20世纪80年代末与90年代,神经网络就在语音及音素识别上有了应用,但基于当时算法和硬件的限制,并没有被广泛采纳。随后神经网络在语音世界里消失了近10年,直到2010年前后的深度学习热潮,才重新回到人们的视野里。

    还有一个不得不提的就是斯坦福大学Andrew Ng关于用GPU做深度学习的最新工作。还记得Google曾经用1000台计算机(开销约100万美元)做的猫脸识别软件吗?在本次ICML中,Andrew的学生仅用价值2万美元的GPU集群,就做到了相同的准确率。可以说,Andrew的这项GPU技术,使得深度学习技术逐步走向中小公司及学校,又迈进了一大步。同时,在6月21日的迁移学习研讨班中,Andrew还通过Skype视频远程与我们进行了沟通,介绍了斯坦福大学深度学习项目的研究进展,尤其是在计算机视觉上的应用。另外,在ICML的讲习班里,另一位深度学习的领路人,纽约大学的Yann LeCun教授也做了一个长达3小时的深度学习教学讲座,受到了各位听众的好评。


    Andrew Ng在ICML迁移学习研讨会上做关于深度学习的远程演讲

    其他机器学习热点问题及最新进展

    本年度ICML的经典论文奖颁给了10年前(ICML 2003)两篇来自CMU的论文:第一篇论文是Jerry Zhu、Zoubin Ghahramani以及John Lafferty关于图结构半监督学习的经典论文。如果你关心机器学习的进展,不难发现,用半监督或无监督学习方法挖掘无标签的数据,不仅是过去10年,还很可能是大数据时代的一个热点。另外一篇是Martin Zinkevich的在线学习经典论文。在线学习解决的问题是:当数据集太大,并且数据流速度太快的情况下,我们没有理由每次都把所有数据全部重新训练一遍。通过在线学习方法,我们可以不用把数据存在硬盘里,每次直接用实时的数据流来更新机器学习模型的参数。另外,ICML 2013最佳论文奖之一授予了Vanishing Component Analysis。传统的特征选择方法通常是在采样中选择显著的特征,这篇论文研究的是,在特征选择时,能不能选择一些不变的特征呢?在特征选择的问题中,这也是一个比较新的研究方向。

    如果你是Dave Blei的粉丝或者对文本分析有兴趣,ICML 2013也有相当多有意思的主题建模文章,例如Arora等人推出的基于锚点词(anchor words)的主题建模新算法,Ke Zhai等人的无限词汇维度在线LDA模型,以及Weicong Ding等人推出的基于投影方法的主题模型,这些都让人眼前一亮。

    核函数领域的专家Alex Smola在ICML上介绍了一种名为Fastfood的核函数计算方法,使得计算核函数的时间和空间复杂度分别降到了O(nlogd)与O(n)。这对广大的基于非线性核函数的SVM应用来讲,绝对是一个大救星。

    最后还有就是概率编程(probabilistic pro­gramming):虽然本次大会关于概率编程的研究不多,但其日前被DARPA认为是机器学习的未来。概率编程的主要思想就是对确定性编程语言概率化,使得不具备机器学习专业背景的程序员也可以用简单的程序语言与规则来从数据中学习规律,对未知世界进行预测。IMLS主席William Cohen教授与我分别在16日与20日的研讨班上简单介绍了新发明的高效概率化Prolog语言ProPPR:通过几行简单的逻辑编程,可以在复杂的图结构上进行快速的推断,并且实现统计关系推断、分类、实体消歧、序列预测等多种任务。


    作者在ICML研讨会上介绍概率编程的最新进展(拍摄者:Cheng Zhang)

    通过本次大会,我们不难发现,随着大数据时代的来临,机器学习领域也正在悄然积极应对。值得一提的是,ICML 2014将于明年的6月21-26日在中国北京举行,届时中国的机器学习爱好者将有机会在家门口享受一场机器学习的饕餮盛宴。


    转自:http://www.csdn.net/article/2013-09-05/2816831

    展开全文
  • 以后决定进军机器学习领域,这篇文章是这个系列的文章的初始篇,算是这个类别文章的Hello World吧。  我宣布,从今天(2017年5月10日)起,我要开始学习机器学习相关的知识了!这是一个激动人心的时刻,就像当年...
  • 机器学习-决策树学习笔记理论模型代码和参数criterionmax_depthmin_samples_leaf怎样提高准确率数据处理调整参数总结 理论 个人对决策树理论的理解:决策树就像是由不同层级的很多选择器的组合,这些选择器内部的...
  • 关于机器学习的一点感想

    千次阅读 2016-08-19 19:52:51
    但唱衰机器学习,认为机器学习准确性不高,基于人工定义规则比机器学习自动发现的规则更有效的言论也不少。 个人理解,机器学习在各个领域的探索的时间不长,相关算法如何与实际分析场景相结合的具体路子也不太成熟...
  • 机器学习线性回归学习心得 机器学习中的线性回归 (Linear Regression in Machine Learning) There are two types of supervised machine learning algorithms or task: Regression and classification. 有监督的机器...
  • 王益 《分布式机器学习的故事》
  • Python大本营每日一课大家好,我是营长,上期营长分享了“面向对象练习”:,不清楚的小伙伴可戳这????每日一课 | 面向对象练习(硬核)本期营长将为大家分享新的内容知识,“机器学习极简...
  • 机器学习线性回归学习心得Data science with the kind of power it gives you to analyze each and every bit of data you have at your disposal, to make smart & intelligent business decisions, is ...
  • 1.各种竞赛啥问题? 首先各种竞赛是公司里面没有合理方案下的一个产物, 用尽可能少的成本来获取最优方案. 但是冠军方案一定是最优方案吗? 显然不是, 因为各种比赛切断了"人与人沟通"的因素, ...
  • 以前也算比较系统接触过机器学习吧,记得最早的时候是大二,机器学习才刚开始提起,更多的是说统计学习。那个时候,深度学习似乎都还没有听过,看的第一本书也是一本外国人写的,一直拿鸢尾花数据集当例子的书。当时...
  • 关于机器学习课程的感想(一)

    千次阅读 2018-07-27 18:50:33
    接下来两年半,甚至可能是五年,应该都要针对人工智能、深度学习、机器学习的内容进行学习。由于现在还没正式入学,所以自己先买了几本书,找了点视频对相关内容进行学习。现在想把看的内容记下来写个博客,以后回头...
  • 机器学习就是把无序的数据转换成有用的信息。机器学习一般包括训练集、学习算法、目标变量、假设函数。目标变量是机器学习的预测结果。如图1所示,在训练集上结合目标变量,利用学习算法不断学习,使得假设函数h能够...
  •  这是一篇机器学习通俗的讲解,我觉得讲得蛮好,特别是我们在设计机器学习系统的时候该怎么做?不是只设计一个机器学习算法就完了,还有很多的事情要做,本文对数据预处理归纳的挺全的,因为从用户获取的数据,不能...
  • 本文把在产品中应用机器学习的过程从浅到深分成了三个大的阶段,又在这三个大的阶段中细分出了一些方面,以此对43条规则进行逻辑分类。简单来说,如果你是从头开始做机器学习系统,那么就可以在不同阶段参考这里面...
  • 不管是分类还是回归问题,最终目的都是找到一个权重更新式子,只不过(目前看到的),分类问题是通过构建极大似然函数计算微分找到权重更新式子,而回归问题是通过构建最小二乘法计算微分找到权重更新式子。...
  • 方便大家相互学习交流,本文转自《程序员》杂志 http://www.csdn.net/article/2013-09-05/2816831 ————————————————————————————————————————————————————...
  • 机器学习43条军规:解密谷歌机器学习工程最佳实践(上)本文译者张相於,首发于微信公号ResysChina(resyschina),「AI早餐汇」经授权转载。以下为注解和编译的内容:本文是对一文的翻译+解读。看过我翻译文章的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,723
精华内容 2,289
关键字:

机器学习感想