精华内容
下载资源
问答
  • 机器学习基础:机器学习基础课程的报告
  • 机器学习机器学习研究中实验,算法和报告
  • 机器学习课程报告

    2018-06-21 09:49:42
    分为几个板块,包括PCA、字典学习、混合高斯模型等理解,用于研究生机器学习课程结课作业报告
  • 深度学习及其应用机器学习学术的报告.ppt
  • 山东大学计算机科学与技术学院机器学习课程实验报告
  • 2020 年 2 月 22 日 金融工程 锦上添花机器学习算法助力组合优化 机器学习系列报告之五 金融工程深度 因子研究一直是量化领域重心研究者在基于新数据新想法不断努 力挖掘有效因子同时如何将手头上已有因子转化...
  • 机器学习的概念 l 1.2机器学习的发展历史 1 2 技术篇 2 2)机器学习算法分类 2 2.2机器学习的经典代表算法 2 2.3生成对抗网络及对抗机器学习. 3 自机器学习. 4 可解释性机器学习. 6 2.6 在 线 学 习 6 2.7BERT 7 2.8
  • 12 月 8 日周二上午 10:30 - 12:00面向多租户机器学习训练的聚合传输协议Abstract随着机器学习数据集和模型的增大,机器学习的训练过程逐步被分布式部署到多服务器上,其中多worker向参数服务器PS交换梯度、更新模型...

    浙江大学

    网络空间安全研究中心

    学术讲座

    ea8153254f22ffbda70f5c53670217a1.png

    吴文斐

    助理教授

    清华大学交叉信息研究院

    时间

    2020 年 12 月 8 日  周二

    上午 10:30 - 12:00

    面向多租户机器学习训练的

    聚合传输协议

    Abstract

    随着机器学习数据集和模型的增大,机器学习的训练过程逐步被分布式部署到多服务器上,其中多worker向参数服务器PS交换梯度、更新模型的计算方式是一种典型的体系结构。但是,在这种体系结构下,PS容易成为通信瓶颈。我们设计了聚合传输协议ATP来解决这一瓶颈,同时支持在数据中心中的多租户多机柜部署。ATP利用最近的可编程交换机技术,将参数聚合的过程卸载到交换机上,从而减小了PS的网络流量和计算量。ATP协议包括交换机上的网内聚合计算服务、终端服务器的可靠传输、和高吞吐网卡的加速技术。我们将ATP对接PyTorch并在AlexNet、VGG等常用模型上进行测试,证明ATP能够有效的加速机器学习的效率。

    BIO

    吴文斐2015年于美国威斯康星大学麦迪逊分校获得博士学位,现在清华大学交叉信息研究院任助理教授。吴博士从事系统网络方向的研究,在国际高水平会议和期刊上发表论文28篇,包括ToN、SIGCOMM、NSDI、SoCC、IMC等。吴博士的博士课题是虚拟网络故障诊断,获得SoCC13最佳学生论文奖;他在5G网络传输层的设计获得IPCCC19最佳论文提名。吴博士目前在研发高性能机器学习基础设施,他设计研发的网络加速的机器学习系统即将发布。

    地点

    浙大玉泉校区

    科工楼二楼会议室

    展开全文
  • 深度学习对比机器学习 选择最适合方法 PDFIcecream PDF Editor PRO 深度学习对比机器学习选择最适合方法 简介 3 术语 4 您项目 7 您数据 26 您硬件 35 结束语 52 算法猜想问答专区 56 PDFIcecream PDF ...
  • 这里写目录标题机器学习评估报告格式常用评价指标分类模型混淆矩阵F1值AUC曲线ROC曲线实现代码 格式 找一个格式还不错的报告参考一下 常用评价指标 分类模型 混淆矩阵 就是二分类,真值正负类和预测结果正负类。...

    格式

    找一个格式还不错的报告参考一下

    常用评价指标

    分类模型

    混淆矩阵

    就是二分类,真值正负类和预测结果的正负类。两两组合。就有四种情况。TP/TN/FP/FN
    算出来 准确率、召回率、精准率、
    准确率(反映分类器统对整个样本的判定能力,能将正的判定为正,负的判定为负):
    Accuracy=(TP+TN) / (TP+FP+TN+FN)
    召回率(预测对的正例数占真正的正例数的比率):
    Recall=TP / (TP+FN)
    精准率(预测正确的正例数占预测为正例总量的比率):
    Precision=TP / (TP+FP)

    F1值

    一般用F1值衡量分类模型性能,尽可能使召回和准确率都大,达到一个理想平衡。

    F1 Score=(2RecallAccuracy) / (Recall+Accuracy)
    

    AUC曲线

    AUC(Area Under the ROC Curve)指标在模型评估阶段常被用作最重要的评估指标来衡量模型的准确性,横坐标为其中随机分类的模型AUC为0.5,所以模型的AUC基线值大于0.5才有意义。

    ROC曲线

    ROC曲线说明:

    Sensitivity=正确预测到的正例数/实际正例总数

    1-Specificity=正确预测到的负例数/实际负例总数

    纵坐标为Sensitivity(True Positive Rate),横坐标为1-Specificity(True Negative Rate),ROC 曲线则是不同阈值下Sensitivity和1-Specificity的轨迹。

    阈值:阈值就是一个分界线,用于判定正负例的,在模型预测后我们会给每条预测数据进行打分(0<score<1)。如:指定阈值为0.6,那么评分低于0.6的会被判定为负例(不好的),评分高于0.6的即会判定为正例(好的),随着阈值的减小,判定为正例的样本相应地就会增加。

    模型的ROC曲线越远离对角线,说明模型效果越好,ROC曲线下的区域面积即为AUC值,AUC值越接近1模型的效果越好。随着阈值的减小,Sensitivity和1-Specificity也相应增加,所以ROC曲线呈递增态势。

    实现代码

    代码环境:

    代码环境待补充

    F1值

    AUC

    ROC

    展开全文
  • 联合国幸福报告:高级机器学习HW#1项目
  • cn 概述 什么是机器学习 计算机程序如何随着经验积累自动提高性能系统自我改进过程 成功应用 学习识别人类讲话 学习驾驶车辆 学习分类新天文结构 学习对弈西洋双陆棋 涉及相关学科 人工智能 计算复杂性理论 ...
  • 2017 机器学习调查报告

    千次阅读 2017-12-07 00:00:00
    数据平台 Kaggle 近日发布了 2017 机器学习及数据科学调查报告,这也是 Kaggle 首次进行全行业调查。调查共收到超过 16000 份回复,受访内容包括最受欢迎编程语言、不同国家数据科学家平均年龄、不同国家平均...

    0?wx_fmt=gif&wxfrom=5&wx_lazy=1

    来源:广州传智播客


    数据平台 Kaggle 近日发布了 2017 机器学习及数据科学调查报告,这也是 Kaggle 首次进行全行业调查。调查共收到超过 16000 份回复,受访内容包括最受欢迎的编程语言、不同国家数据科学家的平均年龄、不同国家的平均年薪等。


    下面主要看看工具使用方面的结果。请注意,该报告包含多个国家的数据,可能存在收集不够全面的情况,仅供参考。


    年龄


    从全球范围来看,本次调查对象的平均年龄在 30 岁左右。当然,各个国家的数值会有差异,中国的机器学习从业者年龄的中位数是 25 岁。


    640?wx_fmt=png&wxfrom=5&wx_lazy=1


    全球全职工作者为 65.7% ,其中中国为 53.% ,美国占比较高,达 70.9% 。


    640?wx_fmt=png

    Logistic 回归是除了军事和国安领域外,最常用的数据科学研究方法。在军事和国防安全领域,神经网络被使用更多。


    640?wx_fmt=png


    在工具语言使用方面,Python是数据科学家使用最多的语言。同时,统计学家对 R 语言的忠诚度很高。


    640?wx_fmt=png


    关系型数据是最常用的数据类型,学术研究者和国防安全领域则更亲睐文本和图像。


    640?wx_fmt=png


    Git 是他们最常用的代码共享和托管方式。


    640?wx_fmt=png

    Dirty Data (脏数据)是从业者遇到的最大障碍。此外,理解不同算法的能力不够也是困扰数据工作者的一大障碍。缺乏有效管理和资金支持,是面临的两大外在困境。


    640?wx_fmt=png


    有趣的是,只使用 Python 或只使用 R 的都觉得他们做出了正确的选择。 但是,如果你去询问那些既使用 Python 也使用 R 的人,推荐使用 Python 的可能会是 R 的两倍。


    640?wx_fmt=png


    数据科学是个变化极快的领域,业内人员需要不断更新知识体系,才可以在业内保持一定地位,不被时代淘汰。Stack Overflow Q&A、Conferences 和 Podcasts 是已从业者经常使用的学习平台。


    640?wx_fmt=png

    原文链接:www.oschina.net/news/90142/kaggle-surveys-2017


    640?wx_fmt=jpeg

    0?wx_fmt=gif

    640?wx_fmt=png


    点击下方“阅读原文”了解环境猫↓↓↓
    展开全文
  • Ng 的机器学习在帝都报告

    千次阅读 2014-07-17 13:11:26
    感谢梁斌博士为大家做出总结!原文出处:梁博新浪博客,...Ng的报告总体上提到了五个方向。1)Deep Learning相比于传统方法优势首先,一个很直观图,随着训练量提高,传统方法很快走到天花板,而Deep Le
    感谢梁斌博士为大家做出的总结!原文出处:梁博的新浪博客,http://blog.sina.com.cn/s/blog_593af2a70102uwhl.html

    一早出发,8点20就赶到现场, 人越聚越多,Ng提前几分钟到达现场,掌声一片。

    Ng的报告总体上提到了五个方向。

    1)Deep Learning相比于传统方法的优势

    首先,一个很直观的图,随着训练量的提高,传统方法很快走到天花板,而Deep Learning的效果还能持续走高,后来这个在提问环节也有同学问道,是否会一直提高,Andrew Ng也坦诚需要面对不同的问题来讨论,而且任何方法都有天花板。

    这个问题蛮关键的,我补充回答一下,其实这是一个特征表达力的问题,传统方法特征表达力,不如Deep Learning的多层学习得到的更有效果的表达。举个例子,假定有一种疾病,这种疾病容易在个高且胖的人群,以及个矮且瘦的人群中易感。那么任意从给一个特征角度上看,比如肥胖,那么胖的这部分人中,得此病的概率为50%,不胖的也是50%,那么"胖"这个特征没有表达力。

    用学术上的术语来说,身高和体型是两个Marginally independent的变量,即如果观察到了他们产生的结果,他们就不独立了。也就是如果身高和体型在用于检测这种疾病的时候,他们就不独立了,因此需要有一种特征表示的方式来表示他们的这种不独立性,能够combine他们以形成更好的特征。而这种更结构化的特征,需要大量的语料才能training到位。而独立性的特征,往往少部分语料就可以获得很好的结果,但随着语料数量的提高,无法observe到结构化的特征,因此更多的语料就浪费了。我们都知道这是AI领域的XOR问题,也就是二层神经网络就能求解,换言之,多层神经网络mining出来更好的特征。

    接着Ng也直观的展示了,从像素级特征(表达力最弱)到edges级特征,直到object级特征。 从edges特征大家看到的这个形式,其实是深度神经网络的edges中的一个小块,就是input layer到第一个hidden layer之间的一组边(如果是RBM 的话)或者是第一个hidden layer到output layer的一组边,这组边可以理解成training的成果。而hidden layer是一个sparse coding的向量,用来combine不同组的边来还原出input layer。

    因此可以看到,通过深度学习的处理,无需tagged data,通过自学习的方式,就可以做到特征的表达力从像素级,提高到了 object models,多么美妙啊,难怪Ng用了Amazing这个词,而且再一次地露出了特有的微笑。

    2)Deep Learning存在的问题

    Ng提到了,通常学生试验在10 million connections这个水平,因为在大已经超出计算的能力,但如果采用并发的方法,160000万个CPUs的情况下,可以达到1 billion connections这个水平。如果采用特制的GPU来计算,可以达到10 billion connections的水平。

    从我自己的实验结果看,目前做千万connection是没问题的,时机成熟我就开放出来,但受限于CPU在向量计算的劣势,再大的话,每一轮训练的时间就会大大提高,变得不可计算,而分布式Parameter server的搞法,虽然能够第一步把语料shard一下,然后各自训练,到了最高层用类似transform learning的法子再combine

    我个人的理解,就是一个巨大语料切成n个部分,每个部分产生表达力强的特征,而这些表达力强的特征在一个阶段,就是那个长条哪里进行combine,也就是这个hidden layer可以很好的表达来自不同shard的特征,最后在展开各层,用不同shard上的tagged data 来进一步调整每条边的权重。

    3)Deep Learning的Idea

    这个可能没什么可说的,但我认为很重要,这段话不难翻译,人脑中大部分感知器是一个非常简单的计算过程。但通过组合可以达到很高的理解力。但问题是如何组合,感知的过程如何从低级阶段到高级阶段,从明暗,色彩的感知,到人类喜怒哀乐的情感,整个过程的每一步可能都是naive得,但整个认知链条的末端一定是语义的,有感情的,上升到概念的。另外,通常还有一个体会,比如看一本小说,脑海中就能自然浮现画面,可见不同神经感知器也不是完全独立的,而是彼此联系的。

    4)Deep Learning的一些成果

    报告中提到很多成果,特别是提到了图像识别中,在DL面前,SIFT特征提取算法弱爆了,我还是为Ng的自信和霸气,略震了一下。按照常规,学术界的同志应该谦虚,尊重下老前辈,尊重下传统的。。

    后来的提问环节,也有同学问到,那些old 算法框架怎么办呢?Ng说无论怎样,这就是科学技术的趋势,当一个东西产生明显效果后,越来越多的方法会采用这些新方法,而传统方法,不是说研究者就立马到zero,但的确会fewer and fewer。当时我心里想,无论如何如何,总得有留下少部分坚守的同志,没准10年后翻身也难说,但大部队应该扑新方法的。

    5)未来趋势

    未来趋势基本是一些喜闻乐见的东西,没什么新意,包括后来提问环节也有人提问,让Ng透露未来的一些计划。Ng说未来的事情总是千变万化的,如果真是希望了解产业界的一些计划,可以来百度打工,和最优秀的工程师一起做事。

    提问环节有很多有趣的话题,比如有人问百度,以及Andrew Ng本人对Spark的评价,Ng回答到,百度用了很多开源工具,但机器学习的很多问题太Uniq了,太特殊了,而Spark这种通用的东西很难满足需求,当然不是说SPark不好,只是Ng本人也很少用(用了Less这个词汇)。还有包括为什么效忠百度,Ng说了三个原因,第一他认为机器学习是Transform世界,Transform互联网的一种方式,相比coursera更加感兴趣。第二百度拥有大量优秀的科学家,高质量的同事,比如余凯,张潼,徐伟同志等等。第三,百度拥有大量的data, 还有个同学要DL的Reading List,Ng给了个这个:http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Recommended_Readings ,还说里面有邓侃号召中国青年的贡献在里面。另外根据网友@fiona_duan 的反馈。最后Andrew提到的是他出生于香港,长在英国和新加坡,之后在美求学和生活。他和媳妇都在美国。他媳妇叫Carol Reiley. Carol 是约翰·霍普金斯大学的医学博士以及在读计算机博士,研究方向是生物医学方向的机器人应用。

    整个报告大概就是这样,我的理解也难免偏颇,水平难免有限,但我坐在第一排,努力的听每一个细节,并快速思考,能量消耗蛮大的,另外就是百度来了几个美女,看上去比较有知识,跑前跑后的拍照。
    展开全文
  • 1.什么是机器学习 人类自身活动大多是基于经验做出判断。我们通过积累经验,通过对经验利用,对新情况做出有效决策。那么计算机能帮忙吗?机器学习正是这样一门学科,它致力于研究如何通过计算手段,利用...
  • 证券研究报告 金工研究/深度研究 2020 年02 月06 日 揭开机器学习模型 黑箱 华泰人工智能系列之二十七 本文介绍机器学习解释方法原理以XGBoost 选股模型为例揭开黑箱 本文介绍六种机器学习模型解释方法原理并以...
  • Google 研究科学家Mathieu Blondel在PSL大学的“机器学习的对偶性”课程材料。主题包括共轭函数,平滑技术,Fenchel对偶性,Fenchel-Young损失和块对偶坐标上升算法。
  • 2020 年 2 月 22 日 金融工程 锦上添花机器学习算法助力组合优化 机器学习系列报告之五 金融工程深度 因子研究一直是量化领域重心研究者在基于新数据新想法不断努 分析师 力挖掘有效因子同时如何将手头上已有...
  • [MISSING IMAGE: , ] 本报告旨在提供未来数据...我们看到来自实验室人工智能和机器学习成为了我们日常生活一部分 无论是亚马逊开设无人便利店 "Amazon Go" 还是 Google 在 Gmail 上推出智能回复人工 智能都已
  • 在2017学年学习《机器学习与智能控制》课程过程中整理的学习资料,并且内含总结报告
  • 人工智能与机器学习课程项目报告 国内年度冠军电影票房预测 姓 名111111111 课程名称人工智能与机器学习 指导教师111111111111 日 期202022222222 1. 绪论 电影业中票房已经成为衡量一部电影是否成功重要指标之一...
  • 本科生毕业论文设计开题报告 毕业论文设计题目 机器学习算法与研究 题目类型 理论 题目来源 指导教师拟定 院系 专 业 指导教师 职 称 讲师 姓 名 年 级 学 号 一立题依据(国内外研究进展或选题背景研究意义等) 机器...
  • 不久前,清华大学人工智能研究院发布了《人工智能之机器学习研究报告,对机器学习发展历程、代表性专业技术、学者概况、发展趋势及应用现状等内容进行深入梳理和概括。
  • 山东大学计算机学院机器学习课程实验报告,本文是第八章决策树实验报告
  • 1.问题定义 1.1 项目概述 该项目通过对于德国 Rossmann 上...需要通过数据清理,特征筛选,使用机器学习模型针对三年中 1000 个药妆店超过一百万条数据日销售数据,对于未来 6 周销售数据进行预测。 由于计算
  • 首先是python的学习,之前看的麦子学院python基础感觉不太够,于是又重新学了一遍。1、学习完北京理工大学的嵩天教授的python学习视频。该课程在慕课和哔哩哔哩上都可以找到。2、看完了python基础程序语言设计3、...
  • 机器学习算法在选股模型中应用 主要内容 1. 机器学习算法原理介绍 2. 机器学习模型选股效果 3. 考虑换手率约束指数增强组合 2 1.1 逻辑回归与支持向量机 逻辑回归 对于分类问题 y 为分类变量0或 1 x为各特征...
  • 我们看到来自实验室人工智能和机器学习成为了我们日常生活一部分。无论是亚马逊开设无人便利店"Amazon Go"还是Google在Gmail上推出智能回复,人工智能都已经成为了我们身边常客。 创建这份报告的目的是为...
  • 随着机器学习模型越来越多地用于在医疗保健和刑事司法等高风险环境中帮助决策者,确保决策者(最终用户)正确理解并因此信任这些模型功能是很重要

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,017
精华内容 806
关键字:

机器学习的学习报告