精华内容
下载资源
问答
  • grand-challenge.org:一个用于生物医学成像中机器学习解决方案的端到端开发的平台
  • bdp-dataplatform:基于大数据、数据平台、微服务、机器学习、商城、自动化运维、DevOps、容器部署平台、数据平台采集、数据平台存储、数据平台计算、数据平台开发、数据平台应用搭建的大数据解决方案。 数据来源:...
  • 30 系列 Ampere 架构 GPU 大幅度提升了 CUDA 核心数量, 3090 提升到了 10496 个 CUDA ...当然, 3080 对于机器学习用来说一点都不香, 区区 10GB 显存, 还不如 2080Ti/1080Ti 呢.24GB 的 3090, 可以说在炼丹性价比上超...

    45e4f15a66fe83fa6c18ef3b53e14792.png

    30 系列 Ampere 架构 GPU 大幅度提升了 CUDA 核心数量, 3090 提升到了 10496 个 CUDA 核心, 相应配置了 24GB GDDR6X 显存. 但是对应也大幅度提升了功耗, 首次引进了 12pin 供电规格.

    当然, 3080 对于机器学习用来说一点都不香, 区区 10GB 显存, 还不如 2080Ti/1080Ti 呢.

    24GB 的 3090, 可以说在炼丹性价比上超过了 20K 售价的 Titan RTX

    不过公版 3090 引入了新的问题: 3 槽, 大多数风冷卡 2.5 槽, 超高, 12 pin, 本来8槽机箱能塞四张卡, 现在可能只能插两张 3090 了.

    要么选择更贵的一体水冷卡, 但是一体水冷的问题还是在于, 当你装超过两张卡的时候, 没有地方装冷排.

    选择分体水冷, 目前看到的问题有:

    • 公版挡板还是三槽
    • PCB 本身还是超高
    • 一套价格仍然昂贵, 特别是需要巨大的冷排
    • 前期组装成本高(说白了麻烦的事情对在座各位好处有限), 特别是东西大概率是公家的, 导师经不起这么高风险、高维护成本, 别装出了问题把毕业搞黄了

    首先先说供电, 由于卡相对少了, 这是最好解决的问题:

    双路 3090

    海盗船有个走 USB 的监控工具, 直通到虚拟机里面就能看当前各路输出状态. 对于不具备 SMBus 的消费级平台来说挺好的. 主要特点还是转换效率到了钛金水平. 消费级毕竟没有冗余

    三路 3090

    2000W 级别的电源已经没什么电源了, 再上去很多都是给矿设计的. 振华 2000W 算是从四路泰坦时代过来的货

    机箱

    之前 10 槽 900D 退市了, 780T 有 9 条, 基本满足 3 块三槽卡或3+2+3使用(因为第一条插槽通常被 M.2 占据)

    并且这个机箱提供了比较充足的机械硬盘位, 可以便于放较大的数据集.

    CPU/主板

    华硕这块 Pro WS X570 是目前 X570 系列比较少见提供带外的 ATX 主板. 3950X 也是目前最接近 HEDT 配置的常规平台处理器.

    支持平台管理功能, 对于实验室有大量机器的场景来说算是非常贴心. 毕竟 X299/X399 都是消费级主板, 并不会考虑 BMC 功能.

    0a8746e1bc63d9fcf02bfe959e9b28fd.png

    这块板有 16+0+8/8+8+8 两种配置, 因为支持 PCIe 4.0, 即便是 x8 的带宽也达到了 PCIe 3.0x16 的水平. 最后一条槽来自于 PCH, 能够达到 PCIe 3.0x8 的速率.

    d7d195357f2398b23b369678bb0da9cf.png

    因为第一条槽被 22110 的 M2 占据的原因, 234 槽为第一卡, 56 槽可以安装双槽水冷卡或者PCIe 万兆卡/SSD 卡, 第三槽安装另外一张显卡.

    华硕还很贴心配了显卡支架.

    532730cb0bb2909e46407d5def0758ad.png

    不推荐 TRX40 的原因很简单: 不见得能装更多卡, 以及机器学习还是更看显卡, 花钱要花在刀刃上.

    同时要注意第二槽的水冷卡尽可能选择短卡, 现在 3090 的风冷卡普遍在远离插槽侧的风扇采用了透风设计以增加风流量.

    68e21f6e2630d298a010c8154eca349a.png

    当然从散热的角度考虑, 第二槽插入网卡是最合适的.

    内存

    X570 平台最大可以支持 128GB 无缓冲ECC. ECC 对于 24/7 运行非常重要.

    网络

    如果选用双卡方案, 可以考虑用中间的 8x 插槽接入万兆或者 40G 级别的网卡:

    如果不方便使用 PCIe 网卡, 其实现在也有 USB 的 5Gbps/2Gbps 网卡:

    Luv Letter:廉价家庭 2.5G交换机/万兆 NAS/Wi-Fi 6 设计方案zhuanlan.zhihu.com
    b2a4d2821ffb575c9c7d94f9fc440ef6.png

    存储

    Pro WS X570 两条都支持 22110 规格, 外加一个 U.2, 我的建议是两条 22110 做 RAID1, 放系统和热训练数据.

    或者是一条 22110 转换为 PCIe 3.0 x4 接网卡, 那么就可以用 U.2+22110 组成 RAID1

    X570 平台的 SATA 性能一般, 不建议接 SATA SSD, 但是可以用 Linux 的 md 软 RAID 组 RAID5/RAID6, 或者使用 ZFS 归档老数据.

    展开全文
  • 大数据时代里,互联网用户每天都会直接或间接使用到大数据技术的成果,直接面向用户的...机器学习是大数据挖掘的一大基础,本文以机器学习为切入点,将达观在大数据技术实践时的一些经验与大家分享。 互联网的海量数

    大数据时代里,互联网用户每天都会直接或间接使用到大数据技术的成果,直接面向用户的比如搜索引擎的排序结果,间接影响用户的比如网络游戏的流失用户预测、支付平台的欺诈交易监测等等。达观数据技术团队开发过智能文本内容审核系统、作弊监测系统、用户建模系统等多个基于大数据技术的应用系统。机器学习是大数据挖掘的一大基础,本文以机器学习为切入点,将达观在大数据技术实践时的一些经验与大家分享。

    互联网的海量数据不可能靠人工一个个处理,只能依靠计算机批量处理。最初的做法是人为设定好一些规则,由机器来执行。比如明确指定计算机给男性、30岁的用户推送汽车广告。很明显如此粗略的规则不会有好效果,因为对人群的定位不够精确。要提高精度必须增加对用户的特征描述。但特征一多规则就很难制定,即使定下了规则也没法根据实际情况灵活变化。机器学习可以很好的解决以上问题,从一定程度上赋予了计算机以“学习”的能力,使得千人千面成为可能。

    图 1 面对大量的特征,人工难以确定使用的规则

    有监督机器学习技术

    机器学习以统计学为理论基础,利用算法让机器具有类似人类一般的自动“学习”能力,即对已知的训练数据做统计分析从而获得规律,再运用规律对未知数据做预测分析。机器学习主要包含四大类别:有监督学习,无监督学习,半监督学习和增强学习。

    有监督学习,顾名思义,是在“人类监督”下学习,要求训练数据既有特征也有目标,目标是人为设定好的。以文本分类为例,一篇文章的字、词、句、段是其特征(文本的内容是什么),文章的类别(时事、科技、娱乐等等)就是目标。训练集文章的类别是人为设定的,相当于明确告诉机器什么样的内容该属于什么类别,机器在此基础上总结规律。无监督学习就是数据只有特征没有目标,最常见的算法是聚类。聚类算法会把相似的样本聚集成一个子集,优点是数据无需人工标注,但缺点也很明显——无法给出子集的实际含义。半监督学习介于有监督学习和无监督学习之间,其训练集数据有一小部分是人工标注过的。增强学习强调基于环境而行动,在探索未知领域和遵从现有只是之间寻求平衡。

    有监督学习的研究起步较早,方法比较成熟。在大多数应用场景中,我们希望机器输出的结果具有实际含义,比如文本分类就是让机器告诉我们一篇文章是时事还是科技类文章。这样的场景下有监督学习也更为适用。有监督学习主要包含回归分析和统计分类两大类算法。

    回归分析——预估点击率的利器

    回归分析建模的是自变量和因变量之间的相关关系(如图2所示),在机器学习领域,自变量是样本的特征向量,因变量是预测值。回归分析最经典的应用场景是广告点击率(CTR)预估。简单而言,CTR预估是根据用户数据和广告数据,估计用户点击某个广告的可能性大小。我们假设用户数据+广告数据和广告点击率之间的关系符合某个分布,使用回归分析方法在已有点击数据上拟合出该分布。达观科技在线上预测时就把用户数据和广告数据作为输出传给拟合出的分布,得到用户点击该广告的概率值。

    图 2 回归分析示意图

    统计分类——被广泛应用的机器学习方法

    统计分类要解决的问题是,如何将一个样本点分到类别集合中的一个或多个类,比如图3所表示的就是将数据分为3个类。

    图 3 统计分类示意图

    现实场景中我们往往需要把数据分成不同的类别,以方便我们分析和使用,因而统计分类方法具有广阔的应用范围。达观数据团队开发的用户建模、内容审核系统、反作弊系统等都使用到了统计分类模型。比如反作弊系统,目的是区分用户行为是否作弊,抽象出来就是个分类问题:输入是用户的各种行为数据经过处理后得到的特征,输出只有两个类别——“作弊”和“非作弊”。接下来我就简单介绍一下最具代表性的分类算法——支持向量机(Support Vector Machine, SVM),一窥机器学习的工作原理。SVM绝不是入门级的机器学习算法,选择介绍它是因为,机器学习需要解决的数据线性不可分、过拟合等问题,SVM都给出了比较可靠的解决方案,借此我们也可以对机器学习有个大概的认识。

    理想情况下SVM的理论模型

    SVM针对分类问题的前提假设直观易懂,由此推演出的模型求解过程也是顺理成章一气呵成。我们通常先从最简单的情况入手,假设数据是线性可分的。SVM认为此时的最优分类面,是使得样本集到分类面的最小几何距离最大化的超平面,这个距离成为“间隔(margin)”。如图4所示,黑色实线就是最优分类面,两边两条虚线之间的几何距离就是此时的最优间隔。数据点离分类面越远,分类的置信度也越高。

    图 4 SVM最优分类面示意图

    SVM假设线性分类面的函数形式为

    (1)

    鉴于篇幅关系,我们略去推导过程。在最大化间隔的假设下,可以得到SVM的原目标函数为:

    (2)

    其中表示第i个样本的特征向量,是第i个样本的类标签,SVM令。由约束条件可知,样本点必然落在最优间隔的边缘(图4中虚线)上或外面,通过推导分析最终可以知道,只有落在间隔边缘上的少量数据点决定了分类面,这些样本被称为支持向量,而其他的点没有任何作用。这一特性大大节省了求解SVM的计算量。

    线性不可分情况的处理

    按照达观数据的经验,真实环境的问题往往是线性不可分的,数据采集的时候也不可避免的会引入噪声。应对这两种情况只需对原始SVM模型做有限的一点改进。针对数据线性不可分的情况,SVM通过引入核函数(Kernel Function)将数据映射到高维空间来解决,图5直观的表示了映射的过程。核函数实际上是两个数据点在高维空间中的内积。它先在原空间进行计算再将结果映射到高维空间,避免了先把数据点映射到高维空间再计算所可能导致的维数灾难问题。核函数可以从容的处理包括无限维在内的任何特征空间映射。

    图 5 SVM核函数的作用原理图

    SVM如何规避过拟合

    过拟合(Overfitting)表现为在训练数据上模型的预测错误很低,在未知数据上预测错误却很高。图6的蓝色曲线代表训练错误,红色曲线代表真实错误,可以看到随着模型复杂度的升高,模型对训练数据的拟合程度越好(训练错误越低),但到了一定程度之后真实错误反而上升,即为过拟合。

    图 6 过拟合

    过拟合主要源于我们采集的训练样本带有噪声,有部分样本严重偏离其正常位置,统计学上称之为outlier。前面已经提到,决定SVM最优分类面的只是占少数的支持向量,如果碰巧这些支持向量中存在outlier,而我们又要求SVM尽可能完美的去拟合这样的数据,得到的分类面可能就会有问题。如图7所示,黑色加粗虚线代表最优分类面,带黑圈的蓝色数据点代表outlier。可以看到outlier严重偏离了正常蓝色数据点的位置,所在位置又恰巧使其成为了支持向量,导致了最终的分类面(深红色实线)严重偏离最优分类面。

    图 7 数据噪声对SVM的影响

    解决办法非常简单而巧妙, Corinna Cortes与Vapnik为SVM引入了松弛变量(slack variable),将公式(2)的约束条件修改为:

    (3)

    其中即为松弛变量。从图8可以看到,引入松弛变量即容忍了outlier的偏移量,抵消了outlier对分类面的负面影响。

    图 8 松弛变量的作用

    但容忍也不可以是无限制的,否则任意超平面都可以是“最优”超平面。因此公示(2)中的目标函数也需要相应的修改,限制松弛变量的总和尽量的小:

    (3)

    公示(3)可以理解为,在对outlier做出有限度的容忍情况下寻找使间隔最大化的最优超平面,至此才是一个能实际应用的完整SVM。如果想详细了解SVM的来龙去脉,推荐《An Introduction to Support Vector Machines and other kernel-based learning methods》(中文译本《支持向量机导论》,李国正翻译)。

    达观数据运用机器学习技术的经验

    经过长期的不断摸索,我们积累了不少让机器学习理论能真正实用的经验。机器学习的方法都各有特点,SVM也不是万能的算法,实际应用中应该根据具体情况选择合适的方法。选好方法,到获得我们预期的效果之间,还需要经过一番细心调校,调校的基础是对所选方法的数学模型的理解,以及对当前问题和数据的深入分析。

    简单又不简单的参数调节

    调参数是最基础的步骤,虽看似简单却也内有乾坤。不同模型可以调节的参数数量不同,可以采取“抓大放小”的原则,调节少数几个(数量最好控制在1到2个)影响最大的参数,否则参数的组合呈指数级增长会变得难以调节。

    大多数模型都有一个控制过拟合的参数,据我们的经验来看,一般情况下这个参数对预测效果的好坏影响最大。对于SVM模型,前文提到过的限制松弛变量部分的C参数就起到控制过拟合的作用,调节C参数一般也能看到预测效果出现较大变化。此外,如果使用了高斯核函数将原始特征空间映射到无限维,那高斯核参数往往需要调节。因为太小的可以把任何数据都映射成线性可分,导致非常严重的过拟合问题。相反,太大会使得映射后的空间仍然是低维空间,起不到升维的效果。

    交叉检验和AB测试

    调参数需要用预测效果来比较还坏,有人可能会问,那该如何测试才能比较客观的检验参数甚至模型的有效性?我们的测试方法主要有两种:离线测试和在线测试。离线测试时我们只有训练数据,一般会采用学术界常用的交叉验证方法。如图9所示,我们将训练数据平均分为n份,在这n份数据上进行n次循环,每次取其中一份作为检验集(Validation Set),其他n-1份作为训练集(Training Set)。最后对n次预测的结果求平均,以平均得分来对比不同的参数和模型。n一般取5、10或者20。

    图 9 交叉验证

    离线测试得到满意的性能提升之后,就可以进行在线测试。离线测试效果好,并不意味着上线就能取得满意效果。在线测试采用工业界广泛使用的AB测试,首先我们会从线上切一小部分流量(B流量)给新模型、新参数,将效果和使用原先的模型和参数的主流量(A流量)进行对比,如果效果有所提升,再增加B流量的比例。测试通过了就可以全流量上线。

    特征工程(feature engineering)的探讨

    业界这么多年的实践经验已经证明,能给机器学习系统的性能带来较大提升的,不是换新模型或者调参数,而是特征工程,andrew ng也说过,“Applied machine learning" is basically feature engineering.”。机器学习只是提供了通用的算法,不可能根据不同的应用场景去调整自身的数学模型或算法。这就需要我们加入一些人工干预。

    特征工程基于不同应用的领域知识对样本提取关键特征,让机器学习算法能够发挥出最优效果。相对而言特征工程是比较耗费人力的步骤,实际操作中也会遇到较多困难,解决办法只有一个:了解你的问题,了解你的数据。做反作弊检测的时候,我们是细致观察过作弊用户的行为数据,做过一些简单的统计分析。对作弊用户的行为模式有一定的概念,才能设计出有用的特征让预测效果达到要求。

    非线性模型 V.S. 线性模型

    进入大数据时代,我们面临的都是海量数据的处理问题。我们处理的大数据集合,在完成特征工程之后,通常得到的特征维数很高,上千万维的特征也不少见。在某些应用场景下,比如文本分类,当样本数量足够多、特征维数足够大的时候,我们发现非线性模型的效果并没有比线性模型高出多少,但计算效率明显差很多。这也是台湾林智仁教授及其团队继LIBSVM之后又推出了LIBLINEAR的原因,LIBLINEAR确实更符合当下大数据处理的要求:快速、高效、性能有保证。如果数据量较大特征维数较多,线性模型是不错的选择;一方面,线性模型可以在效果达到使用要求的前提下保证在线应用的及时响应,另一方面也节约了离线训练的计算时间,可以提高特征工程迭代的效率。

    结语

    大数据时代之下,如何从已经积累的数据中挖掘出“金矿”以提高企业效益,已日渐成为各行各业的普遍痛点。设想一下如果能让每个企业都用上大数据技术,我们整体的经济效率必将有明显的提升。达观数据科技非常愿意与所有企业分享我们的经验和能力,助力各个企业享受大数据技术的成果。

    作者简介

    纪传俊,复旦大学计算机专业硕士,现任达观数据联合创始人,曾任职于盛大创新院推荐组负责起点中文网和酷六视频的相关推荐,为有你社交app开发好友推荐系统,后任职于盛大文学数据中心全面负责大数据挖掘任务调度系统,智能审核系统和反作弊系统。对大数据挖掘技术,机器学习算法,分布式集群搭建和任务调度有较深入的理解和实践经验。

    展开全文
  • 在此存储库中,发现如何使用此强大的机器学习平台进行工作。 此回购讨论了MLlib(Spark机器学习库),该库为数据科学家和分析人员提供了工具,他们希望找到业务问题的解决方案,而不是编写,测试和维护自己的机器...
  • 概述 得益于大数据的兴起以及算力的快速提升,机器学习技术在近年取得了革命性的发展。在图像分类、语音识别、自然语言处理等机器学习任务中,数据为大小维度确定且排列有序的欧氏(Euclidean)数据。然而,越来越...
  • MLApp是一个Python库,用于构建一致,集成且可投入生产的机器学习和AI解决方案。 项目脚手架:生成有目的的文件结构,以执行现代工程标准并提高解决方案的可读性 嵌入MLOps :标准化模型及其元数据的注册,存储和...
  • 大数据施工的整体方案 主要内容如下: 1.当前系统分析 2.离线&在线数据收集(ETL,hadoop, hive等) 3.数据分析(R) 4.数据挖掘(机器学习算法) 5.分析结果展示
  • 近年来,机器学习在各行各业的...虽然现在有很多软件包可以解决底层模型的调用,但是全流程的数据清洗,特征转换,提取,降维,模型的选择,参数的调整等等端到端的问题当前并没有一个很好的解决方案。一方面,数...

    近年来,机器学习在各行各业的应用越来越广泛,人们也越来越感受到机器学习的强大威力和巨大的潜力。

    从定义来看,机器学习是对能通过经验自动改进的计算机算法的研究。换言之,经验就是数据,算法就是模型,机器学习做的就是用模型从数据中提取规律。虽然现在有很多软件包可以解决底层模型的调用,但是全流程的数据清洗,特征转换,提取,降维,模型的选择,参数的调整等等端到端的问题当前并没有一个很好的解决方案。一方面,数据科学家和数据挖掘工程师们需要花费大量的时间在数据的清洗,预处理以及模型的调参上,而且建模步骤与整个产品的解决方案是分离脱节的,在模型落地上往往需要大量的工作。另一方面,由于数据清洗,特征工程,模型调参等需要大量的专业知识和经验,这限制了更多的人来应用机器学习,对许多拥有业务背景知识,但是对于机器学习不甚熟悉的人来讲,也迫切需要一款产品来帮助他们使用机器学习来为自己的业务赋能。因此,对自动化建模和数据模型全生命周期管理的需求呼之欲出,这也是R2 Learn产品的优势所在。

    R2 Learn的整个流程包括了数据探索,数据预处理,特征工程,算法选择,模型训练,模型验证,结果分析,部署验证等步骤。除了个别需要手动选择的地方以外,绝大部分都可以全自动的完成,用户要做的只是需要给出数据,之后就静待花开,获取最优的模型。

    大数据应用通常和复杂系统联系到一起,这些系统拥有巨量用户、大量复杂性软件系统和大规模异构计算与存储架构。构建这样的系统通常也面临着分布式的设计选择,因此最终产品(如推荐系统、药物分析工具、实时游戏引擎和语音识别等)涉及到许多可调整的配置参数。这些参数通常很难由各种开发者或团队具体地编入软件中。如果我们能联合优化这些超参数,那么系统的性能将得到极大的提升。

    R2 Learn的自动建模框架本身是基于人工智能技术开发的,由三大技术引擎相辅相成:

    R2 Learn的人工智能专家引擎集成了最先进的机器学习知识及经验并自动的应用到建模过程中;而它独一无二的优化引擎融合了贝叶斯优化,遗传算法等理论,用较少的计算资源,最快的速度,找到最好的模型;最值得瞩目的是R2 Learn的强大的有无穷潜力的自我学习引擎,它会自动学习总结建模过程中的规律,不断优化提升自己,变的越快越好。

    我们支持当前市面上绝大部分机器学习算法,包括但不限于Adaboost,朴素贝叶斯,决策树,高斯过程,梯度提升,KNN,随机森林,逻辑回归,xgboost等等。另外,我们自主开发的新的算法包,可以充分发挥GPU的算力优势,不但可以提升模型的准确率,减少模型过拟合,而且可以把R2 Learn已经超高的建模效率进一步提高几十倍。

    R2 Learn产品由算法模块层,核心优化层,流程调度层,业务映射层依次由低到高组成。算法模块层提供各个基础的算法功能,包括预处理模块组,特征工程模块组,机器学习算法模块组,指标验证模块组,可视化模块组,部署预测模块组等等。核心优化层包括智能知识库,建模优化,及自我学习模块。流程调度层在核心优化层和算法模块层提供的能力之上提供灵活的流程调度,按照业务的具体需求来组织各个功能模块。业务映射层接受具体任务,将任务映射转化为流程管道交给流程调度层。整个系统将强大的计算能力和灵活的业务流程统一在一起,可以在给定资源的条件下,最大限度的进行优化。

    R2 Learn的交付使用Docker进行封装,免除了繁复的环境配置工作,用户只要提供IP地址和端口号就可以使用,启动Docker后访问产品的Web界面就可以使用产品的全部功能。部署部分还提供有API接口,可以方便用户在自己的软件系统中直接调用R2 Learn的结果。后面还会有SaaS版本的R2-learn上线,可以进一步减轻用户的运维负担,随时随地的进行机器学习建模。在多、快、好、省的机器学习探索道路上,R2.ai会越走越远。

    关于R2.ai

    2015年4月,R2.ai由一群在AI和数据科学领域内最杰出,最富有想象力的团队在硅谷建立。他们致力于将大胆的创意转化为复杂现实中的实际应用。其核心管理团队拥有合计60多年的AI行业经验。

    R2.ai是帮助创建AI的AI。该公司是新一代人工智能开发和运营平台的始创者,其使命是为AI在各行业的应用赋能,大规模推动AI的普及和发展。 不管您是拥有大数据还是行业经验,也不管您是AI专家还是普通商务人员,其尖端的AI技术都可以助您快速、便捷、经济地自动构建精准的机器学习模型。更多信息,请访问http://www.r2ai.com.cn

    联系我们
    问题咨询:contact@r2.ai
    产品销售:sales@r2.ai

    展开全文
  • 主导腾讯智能钛TI-ONE(可视化机器学习平台)和TI-S(自动机器学习平台)两个产品的设计工作。从上海交通大学模式识别与智能系统专业博士毕业后,先后就职于IBM、普华永道从事IT架构、咨询方面的工作,对机器学习与...

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~

    本文由腾讯云AI中心发表于云+社区专栏

    郭律,腾讯高级产品经理,腾讯云AI基础产品中心高级产品经理、解决方案架构师。主导腾讯智能钛TI-ONE(可视化机器学习平台)和TI-S(自动机器学习平台)两个产品的设计工作。从上海交通大学模式识别与智能系统专业博士毕业后,先后就职于IBM、普华永道从事IT架构、咨询方面的工作,对机器学习与金融、零售等业务场景的结合具有深刻理解,帮助学员掌握如何利用工具解决实际业务中面临的机器学习问题。

    众所周知,现阶段的人工智能特别热门,研究人员也都想进入到这一领域,人工智能究竟是什么?我们有一个形象的比喻来说明什么叫做人工智能。

    img

    人工智能是这样,把米煮熟成饭的过程就是机器学习的过程,米是大数据,而饭就是人工智能。概括为一句话就是,将海量数据通过机器学习的手段来进行处理最后形成模型的过程就是人工智能。说到具体的例子,阿尔法狗的海量数据来自于各种各样的棋谱,通过机器学习成为一个下棋的人工智能。

    机器学习说起来是一个词,其实背后有很多的事情要做,比如预处理、特征抽取、数据建模、模型评估等等。在建模过程中,除了调参选算法之外还有很多重要环节。在这个过程当中比较重要的一环是特征工程,一个模型好不好取决于特征工程做的好不好。

    img

    人工智能为什么这么火?相比于传统的商业智能(BI),人工智能更加精准。,以往的商业智能实现了对大数据的分析和处理,不同之处在于BI主要是通过人对数据的规则进行发现,AI是通过机器对数据的规则进行发现。我们同行里面有一个专家曾经说过,当规则超过1千万条,机器是可以超过专家的。这句话就是讲机器学习的特点就是精准。

    img

    AI通过机器学习挖掘数据里面的规则,效果比人做的更精准,而想用AI解决问题有4个约束条件。

    第一个条件是业务场景。我们现阶段的人工智能不是强人工智能,并不能像科幻电影里一样可以解决任何问题。能够用机器学习解决问题的前提之一,是把业务问题转化为机器学习的建模问题,这样的问题可以用AI解决,所以业务场景是特别重要的一点。

    第二个条件是海量数据。我们现在的机器学习,其原理是基于统计来学习数据中的规则。我们根据数据历史,基于统计发现其中规律,然后再将这些规律用于未来的数据预测。在历史数据里发现规则,需要海量的数据,这些海量数据应该是特征丰富、不重复,高质量的数据。

    第三个条件是人才。这涉及到做算法人才、把算法在工程中实现的人才、产品化的人才以及将AI和业务系统集成的人才,这些人都属于AI人才。

    第四个条件是技术能力。包含了计算资源、存储、网络以及和业务系统的集成。AI如果不能跟企业业务系统集成在一起是没有业务价值的。

    img

    刚才说的是机器学习的4个要素,接下来举例说明这4个要素在不同场景当中的体现。

    在风控领域,海量数据包括客户交易数据、黑名单数据、客户数据、客户账户数据等等。这些数据都为我们提供各种维度的特征。我们用AI做风控,例如用AI判断信用卡交易是不是欺诈交易,或者信用卡催收时,判断一个客户的还款意愿是否强烈,这些问题可以转化为回归或者是分类问题。用这样的方式,把金融风控领域里的一些业务场景转化为一个系列具体的、可以通过机器学习建模来解决的技术问题。

    img

    在营销领域,海量数据包括客户画像、客户行为,商品目录,营销活动数据、营销成果数据(如历史上把某一类商品推销给某些客户,成功或者没有成功)等等,我们把这些数据送给机器去学习,哪种商品推给哪类客户比较容易成功,哪种不容易成功,这是我们要做的事情。具体到业务问题,例如说沉睡唤醒,在银行和电商有很多客户都存在开户后可能两三年再也没有业务的情况,就属于沉睡客户,如果通过一些推销手段,如给你发短信或者推荐促销活动,看能不能让客户重新在银行或电商活跃起来;又如商品个性化推荐,很多人在京东买手机以后,京东会推荐手机膜、耳机、储存卡等商品,这些推荐会根据其他用户选择或该用户购买历史以及跟该商品有关联的其他商品做推荐。

    img

    在健康领域,海量数据包括患者的行为数据、处方数据、病史数据等等,用这些数据做疾病预测,例如糖尿病预测,根据病人的数据预测两年或三年以后得糖尿病的概率,就是AI的一个应用场景。

    img

    最后一个场景AI加制造,在很多工厂里面也需要,用AI改善工艺流程或者降低成本,在这里海量数据会包含机台参数(每一个不同的设备加工时的输出参数)、工艺流程数据,场景包括通过机器学习做一些智能测量以解决在某些人到不了的情况下需要做检测的问题。

    img

    在不同的业务场景里面,AI数据和AI业务问题具有多样性。但是相对而言AI人才(包括建模和工程人才)和AI的计算资源和计算能力是通用的,各场景的建模过程大体上也差不多。

    img

    同时AI人才和计算能力又是有层次的,AI从理论研究到能够应用到工程中需要经历4个层面,最贴近业务的一层是模型,然后是算法,业务问题提出后在算法层面调试获得模型,模型不不能直接使用,如何打造数据闭环,需要在工程层面或者产品层面去实现。至于计算框架和计算资源层,模型训练还有很多工程方面的问题需要解决,包括算法与数据源集成、训练的日志和错误监控、任务调度等等。这些问题和业务相关度较小,但技术难度又很大,实施周期长,给传统企业使用AI、拥有AI能力造成了一定的困难。

    img

    我们把AI的人才按照成熟度的不同分成4类:第一种是AI Geek,从底层计算资源搭建到计算框架的引入,一直到上面的算法编写,包括模型的调优,一个人可以做完,这种人非常的稀缺,效率不一定高,因为所有工作都要重头做。

    第二种是AI研究者,他们对某类算法很熟,他们自己会写比较高级的算法。但是他们可能对底层的计算框架,比如说GPU怎么管理,不是很清楚,只要把算法写好就可以了,底层交给工程人员,这属于AI的研究者。

    第三种是AI的从业者,在座的同学大部分在这个层级上面,这一块的特点是:知道整个建模的流程;也能够用一些开源的算法做模型训练,希望能够有一个比较好的机器学习UI,不需要从框架上或者每一个交互都需要一个命令行来建模。

    最后一种是AI的应用人员,希望直接拿到发挥作用的模型,不关心模型的原理,希望的是能够从业务数据直接获取一个模型来解决业务问题。

    img

    根据以上这么多用户层次的差异性,我们需要针对不同用户诉求提供差异化的方案、产品和服务。

    先从最底层说起,针对AI研究人员需要提供计算资源、任务的调度、计算资源的管理,他自己写算法。

    第二类是AI从业者,AI从业者需要自己建模,对算法做少量改动。另外他们关心模型建好以后,如何与业务系统集成,数据闭环如何实现。数据闭环是为了防止模型衰减,保证模型上线后能够迭代训练以保持效果,这也是这个层级的用户会关心的事情。

    再往上一个层级就是AI应用者,AI应用者需要模型自动训练、自动数据分析、自动特征工程,模型训练完成后自动布署为服务。最好还能够对模型微调,就是加一些数据,可以适应新的场景。

    img

    我们针对不同层次的客户提供差异化的产品,最左边的TI-A是深度学习加速器,主要是做模型训练加速,我们的速度很快,在云上面使用TI-A平台,可以帮助用户实现深度学习训练的加速。而且这个模型训练完以后,它可以一键部署,这也解决了模型训练完以后怎样可以应用到业务场景里,怎样做预测的问题。

    中间的产品TI-ONE,是智能钛一站式机器学习平台,它有一个可视化的UI,用户可以一目了然看到整个建模的工作流,可以看到数据的流转关系和各环节的依赖关系,这个产品可以让用户方便地建模,而且里面有很多内置的算法。

    最右边是TI-S,它的特点是全自动、黑科技,不需要用户建模,只需要给它数据,就可以反馈给你一个可用的模型,真正一键建模,模型训练完后能够部署成一个应用。

    img

    接下来我们仔细来看一下智能钛产品具体都有哪些功能。在TI-ONE里面支持机器学习、深度学习和模型推理,机器学习里面包含了数据加载、预处理、特征工程、特征选择的工具,后面还有一些具体的算法。深度学习里面包含了一些已经写好的神经网络的算法,针对一些业务的场景也有一些封装好的、针对这个业务场景的算法,例如机器视觉的算法,自然语言处理等等。

    在模型推理部分,对于机器学习训练出的模型,后续处理包括模型部署、模型管理、模型监控、模型验证等等。

    TI-A相对比较简单,含有一些深度学习的神经网络库和模型推理的功能,UI采用轻量化的客户端,用控制台支持模型和任务的监控。

    TI-S的模型训练、部署都是自动化在后台运行,用户只需要把数据传上去,TI-S自动完成数据处理,特征工程,算法选择和参数优化。

    img

    智能钛平台降低企业获得AI能力的门槛:框架方面,智能钛平台内置众多主流框架,省去用户自己集成框架的工作;算法方面,由于有内置算法,省去用户很多写算法的工作;模型调优方面,智能钛平台的图形界面可以帮助用户做算法调优,有比较灵活的调度和调参方式;在模型管理方面,智能钛平台可以帮助用户搭建数据闭环,数据闭环只有在自己搭建的算法训练出的模型上才能实现,直接购买的AI应用通常不支持数据闭环;协作方面,智能钛平台支持团队的模型分享、算法分享。

    img

    以智能钛为核心,企业还能打造开发者生态,在这个平台上面开发应用,开发者可以省去很多底层比较辛苦的工作,而且能通过这个平台来实现模型的闭环。另外,腾讯有比较强大的技术能力和算法服务,也有比较丰富的数据服务,可以帮助开发者做出更好的AI应用。云平台底层有比较丰富的计算资源,AI开发和运转需要大量计算资源。

    img

    这个图是模型自更新的框架图,自建AI模型很难,所以很多企业愿意直接购买AI应用,但当出现以下几种情况的时候,就必须自建模型。第一,如果你需要解决的问题场景比较独特,而不是一个简单的人脸识别、语音识别,例如在很多制造型的企业中,生产流程中需要测量的值比较独特,这种情况下只能自己建模型。第二,数据比较独特,而且你也不愿意把数据公开。建模需要大量数据,例如刚刚讲的AI语音识别中,因为没有方言的语料,就没有很好的方言识别模型。那么如果你需要一个AI模型,而这个模型需要厂商来帮你训练,那你至少得把相应的数据给他。但是有一些你自己公司内部的应用数据,别人买不着,你又不愿意拿出去,这个时候就得自己建模。第三,模型需要不断自更新,自更新在很多场景下都是很重要的,因为模型会衰减,所以需要增加新的数据以适应新的情况,自己建的模型,首先这个数据是自己的,通过一个标注平台进入训练平台,平台都在你自己的机房里面,这边的模型全部都是在平台计算出来的。通过平台和业务系统数据总线打通以后,实际上可以形成一个模型的闭环和数据的闭环,就满足一个模型自更新的要求。

    关于平台的应用案例:我们这个平台目前的案例包括:金融领域的风控,营销以及基于NLP、OCR实现运营优化等等;教育领域和高校或赛事举办方合作,以平台为基础来提供比赛的环境以及教学环节等等;商业领域方面,帮物业公司实现物业管理的服务水平优化;工业领域方面,帮地铁公司对轨道、车辆设备做异常检测。以上这些场景大多比较特殊,只能通过机器学习平台自己训练这样的模型。

    Q&A

    Q1:腾讯的AI定义是什么?从最早的AI识别,到大数据系统,建模放在AI当中,现在更多的是讲深度学习和机器学习,我不太清楚。

    A1:语音包括小微都属于AI应用层面,AI应用底下靠什么来承载,就是AI的平台和框架,以及再往下的计算资源。我们这个平台定位的是AI基础平台,它就是一个建模的工具,可以提供的是机器学习和深度学习的建模所需要的工具。

    Q2:机器学习在原理上没有变化?用matlab能不能训练机器学习和深度学习模型?

    A2:机器学习在原理上没有变,深度学习是神经网络演化出来的,神经网络层数变大以后变成了深度学习学习,用matlab训练模型从原理上和算法上来讲是没有问题的,但是从思路上来说,现在机器学习的思路跟以前不一样的地方,以前是降维,因为计算能力有限,现在都是升维。现在随随便便一个神经网络几十层,计算量都是很大的,这就是为什么深度学习需要用GPU的原因,用matlab训练的话计算能力会有问题,训练不出来。

    问答
    机器学习和人工智能在工业4.0时代有什么具体应用?
    相关阅读
    王珺:智能音箱语音技术分享
    人工智能、机器学习、深度学习,三者之间的同心圆关系
    易图秒懂の人工智能诞生
    【每日课程推荐】机器学习实战!快速入门在线广告业务及CTR相应知识

    此文已由作者授权腾讯云+社区发布,更多原文请点击

    搜索关注公众号「云加社区」,第一时间获取技术干货,关注后回复1024 送你一份技术课程大礼包!

    海量技术实践经验,尽在云加社区

    展开全文
  • 全文共6177字,预计学习时长16分钟 图源:unsplash ...将一组机器学习解决方案转变为端到端的机器学习平台的,是一种运用了加速建模、自动化部署和确保生产中的可伸缩性和可靠性的技术的架构。 ...
  • 内容来源:ATYUN AI平台 Oracle公司今天宣布收购了DataScience.com,这是...但Oracle预计将其云基础架构服务与Datascience.com的工具相结合,以实现统一的机器学习解决方案。 “每个组织都在探索数据科学和机器...
  • 计算平台是阿里巴巴集团数据平台的基础技术设施,提供一站式数据采集、加工、分析、挖掘的平台服务,及完善的配套数据开发、数据管理工具,支持离线分布式计算、在线流计算、图计算、实时多维分析、机器学习、深度...
  • CAML平台致力于整理和分享互联网广告领域的核心问题和解决方案。博主水平有限,期望能与对此话题感兴趣的朋友一起学习、交流、探讨与分享。众所周知,机器学习是一门交叉性很强的学科,而我们这里主要想分享和探讨的...
  • 在我的仓库中,您可以使用统计方法和最新的机器学习模型为某些现实世界中的业务问题找到出色而实用的解决方案。 我的大部分项目都将在jupyter Notebook中进行演示。 Jupyter笔记本电脑是与世界分享我的作品的绝佳...
  • Android平台阿里云安全解决方案总结

    万次阅读 2018-02-14 09:53:29
    Android平台阿里云安全解决方案总结 阿里聚安全目前提供了安全扫描、安全组件、应用加固、安全审计、安全测试工具五种方案。 一、安全扫描 将APP提交到阿里服务器上,然后由阿里服务器进行安全扫描发现恶意代码、...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 611
精华内容 244
关键字:

机器学习平台解决方案