精华内容
下载资源
问答
  • VLIW:(Very Long ...其中,VLIW(超长指令字)体系结构美国Multiflow和Cydrome公司于20世纪80年代设计的体系结构,EPIC体系结构就是从VLIW中衍生出来的 深度学习加速器,更宏观些应该称为处理器,我认为.

    VLIW:(Very Long Instruction Word,超长指令字)一种非常长的指令组合,它把许多条指令连在一起,增加了运算的速度。 超长指令字(VLIW)是指令级并行,超线程(Hyper-Threading)是线程级并行,而多内核则是芯片级并行。这三种方式都是提高并行计算性能的有效途径。其中,VLIW(超长指令字)体系结构是美国Multiflow和Cydrome公司于20世纪80年代设计的体系结构,EPIC体系结构就是从VLIW中衍生出来的

     

    深度学习加速器,更宏观些应该称为处理器,我认为会是继通用中央处理器之后的一次架构性的革命。通用CPU在过去几十年里取得了惊人的成功,不用说服务器,桌面和手持设备CPU是关键性部件,以至于在以固定功能为主的芯片里也都包含一个甚至多个CPU,负责对功能单元的控制和调度。其中的关键因素是非常友好的软件接口,包括易用性,可扩展性,兼容性。同时处理器架构的进步引入了硬件并行机制和多层缓存机制,极大的增强了处理器的运算能力,同时保持了对软件的抽象层次,使工程师不必了解过多的硬件结构来进行软件设计。而上述架构又提高了处理器硬件的扩展性,针对同样的指令集可以设计出运算能力不同的处理器系列,其编译和软件只需很少改动甚至不需改动就可以直接运行在这些规模和算力差距很大的芯片上,并可以保持实际性能和硬件算力的线性关系。因此,尽管在深度学习加速器大规模爆发的今天,即使是其主攻的推理市场,仍有超过半数的设备在使用经SIMD加速的通用处理器。深度学习,或者广泛的称为人工智能,相比传统的软件算法有其一定的domain specific的特征,比如非常高的数据算力的需求,弱化的控制,大数据带宽等,同时在AI算法的内部,又体现着一定的generality,如结构差异的各种网络结构和算子特性。这些特征会引导对体系结构的新一轮的探索。这也是我认为目前已ASIC结构为主的深度学习加速器可能只是AI发展的初级阶段,是一种可以快速落地但应用狭窄的产品,更多的意义是对当前对火热而快速的深度学习市场的一种响应和匹配。随着AI算法的深入而广泛的发展,对generality的需求会增加,从而推动芯片设计向通用性方向移动。在这一方面,英伟达的GPGPU和CUDA软件仍然牢牢占据着优势地位。其他的潜在竞争者们虽然不多,但也进行了很多尝试,比如寒武纪,华为的达芬奇,燧原的DTU,habana的TPC等。其中有一个很有意思的现象,可以称为考古,就是在最新的AI产品上出现了几十年前就提出的一些“老结构”,最典型的就是谷歌的TPU所使用的的“systolic”阵列,当年基本上可以认为失败的思想却可以在今天换发新生。这也证明了一点,没有最好的架构,只有最合适的架构。当时的“英雄无用武之地”可能只是没有合适的应用场景,而现在的AI设计正好能够很好的匹配这种架构,因此发挥出其最大的实力。想到前几天看的一篇文章,是介绍比特大陆在设计矿机中如何从80年代的动态电路结构中寻找灵感,设计中了一种面积较低的动态触发器用来替代传统的静态触发器,同时针对挖矿算法的特性避免了动态电路所需要的的刷新逻辑,从而控制住功耗。以此为基础的矿机在成本上有很大的优势,在一定程度上奠定了比特大陆的霸主地位。因此“以历史为鉴”在芯片设计上也是一种很有效的思路。

    上边谈了最近研究的一些个人感想,接下来分析另一种在深度学习芯片上大放异彩的“考古”成果,就是超长指令字:VLIW(Very-Large-Instruction-Width)。这个名词甚至有些刚接触处理器设计的都不熟悉,因为以它为代表的一代处理器已经失败的退出市场,以至于在体系结构的书中只占据了附录的寥寥篇幅,似乎在宣称我曾经存在过。不过相比其他彻底消失的架构,VLIW在另一个领域还是找到了自己的位置。刚接触DSP设计的人,都会对这种奇怪的流水线结构和数据运算方式留下很深的印象,是的,这就是VLIW。而现在,很多主攻云端推理和训练市场的产品,在提到基础架构时都会宣传其自定义的矢量运算指令集,大发射位宽,高度的并行执行能力。这些名词背后的底层结构几乎都是VLIW。前不久才被intel收购的habana就大方宣称采用自定义的VLIW的指令集。虽然VLIW结构在之前的几十年只能算是取得了“非常有限的成果“,但就目前的深度学习处理器架构发展而言,重新回顾下VLIW的特征以及其成功和失败的案例仍然是很有意义的,也许这也是AI设计的一种可能方向。

    处理器设计有两个核心问题,并行性和存储访问。针对前者工程师提出了多个层次的并行性提升方法,如指令级的并行,包括多发射,乱序执行等;又如程序间并行,比如多线程,多核系统等。其中,多发射系统的发展对处理器结构有这至关重要的影响,也是提升程序单线程性能的主要技术。随着指令并发数目的增加,需要更多的译码,更复杂的处理相互依赖性的逻辑,更高效的乱序调度能力,这些需求极大的增加了硬件设计复杂度,增大了面积,同时限制了处理器频率的提升。由于传统的多发射非常依赖于硬件动态调度,从而引入复杂度,那么可不可以有另一个思路,就是将这个调度工作转移给软件,由编译器在编译过程中对程序进行分析,从而进行静态调度,硬件只需要根据调度好的指令包直接执行即可,甚至前后的依赖关系都可以由编译器负责。这样去掉了硬件动态调度逻辑,处理器流水线的设计可以变得简单而直接,因为不需要处理指令间的依赖性,可以实现更大宽度的指令包的译码和执行,这样就进一步提高了指令级并行的能力。这就是VLIW思想的来源。因此,VLIW相比传统的多发射,主要有以下几个优点:一是简化的硬件结构,可以加速芯片上市时间和减少潜在bug,将复杂度留给软件后续迭代;其二,VLIW的大位宽执行并不会以牺牲性能和频率为代价,能够保持发射宽度和性能的线性关系,而不像传统的多发射加硬件动态调度,其性能的增幅是明显递减的;其三,相比硬件动态调度只能在几十条至多一两百条指令的范围内进行调度,编译器可以看到程序的全貌,其调度可以在数万条指令的范围上进行,并且处理硬件很难发现的一些并行特性,比如多层嵌套的循环,这也是VLIW宣称的性能可以超过硬件调度的信心所在。

    Intel IA-64 指令格式

    当年intel和hp的工程师研究出了VLIW的结构,都认为这是未来处理器的发展方向,据此设计了intel的64位指令集IA-64,并开始研发面向服务器领域的高性能处理器,在新的领域甩开AMD紧跟的步伐,开启属于intel的新时代。这个雄心勃勃的架构被称为EPIC (Explicitly Parallel Instruction Computer) ,基本就是VLIW的改进版。基于EPIC的第一代处理器代号为Itanium,即“大名鼎鼎”的安腾。然而,理想很丰满,现实很骨感。随着安腾1代的不断跳票,加之安腾2代性能也不达预期,同时IA-64不能在binary code上兼容x84指令集,导致各大厂商不断退出对安腾的支持,最后只剩下intel和hp两兄弟还在支撑。借此良机,AMD推出了完全兼容x86的x64指令集,很快获得了厂商和市场的认可。面对如此窘境,intel也不得不低头,选择支持了AMD的x64指令集。随着小型机在服务器领域的成功,x64指令集取得了绝对的领先地位,安腾越来越难以找到自己的位置。2019年初,intel宣布安腾系列进入EOL(End-Of-Life,寿命结束)周期。经过1/4个世纪的代价高昂的尝试,VLIW架构在通用处理器上终于画上了早该结束的句号。

    既然VLIW有上述那些优势,为什么还会在竞争中失败?有很多方面的因素,这里只从技术角度总结一下,算是马后炮的分析。最主要的2个原因,第一,虽然编译器可以调度的范围更大,功能更强,然而由于程序中很多数据只有在run-time执行时才能获得取值,尤其是一些控制流数据,这样在编译器静态调度是就不得不面临信息缺失的问题,从而只能采取比较保守的策略,这样调度效率就大打折扣。因此,一定的硬件动态调度能力又变得不可缺少,在安腾2代上,如branch prediction,renaming,fowwarding,OoO等机制又被拿了回来。这样导致硬件逻辑非但没有简单,反而由于引入了VLIW的一些支持而更复杂,频率无法提高,能耗还上升了。第二,在当前系统结构中,cache被证明是一个性能强大而易于软件使用的机制,在内存模型中不可或缺。而引入cache所带来的问题就是存储访问的时间不确定性,因为cache的缺失无法静态预测。这样编译器在调度指令的时候无法确定存储访问的周期,更难以将数据存取和计算在超长指令package中合理排布。因此编译器的设计非常复杂,同时面临的上述困难更是无法克服。最终导致安腾在实际应用的情况下,能耗都不及同等级的x64处理器。

    除此之外,我认为还有一个至关重要的原因,尽管跟VLIW无关,但这一点值得在深度学习加速器中深入思考,就是软件的兼容性。这一点是x86指令集成功的关键,intel一直保持着这个优势。然而在IA-64的设计上,为了切入基于RISC的VLIW的架构,intel自己抛弃了对x86的binary兼容,导致在64位指令集的竞争中落败。这一点在目前的深度学习加速器上可以说是重灾区,很多公司的加速器,甚至软件框架,第一代和第二代可以说是天壤之别,别说binary兼容了,整个firmware和运行库都要重写。这当然可以算是一种“快速试错和迭代”,然而对于很多应用公司而言,一个系统的生命周期是以年计算的,尤其是工业相关,甚至需要5~10年的稳定期,这样大幅度的变动对很多企业而言是不可预知的风险,难以想象今天才在生产线上安装了设备,过几天更好的算法发明了,该设备不支持,或者发布了下一代产品,之前开发的软件无法运行。因此稳定性和持续兼容的能力仍然很关键,如ARM这样另起炉灶高的A64指令集,也增加了兼容以前指令集的32位模式。也是这个原因,尽管各家纷纷推出高效的AI推理加速器,市场占有率最高的仍然是基于通用处理器的产品。这一点,值得AI工程师们仔细思考。

    VLIW在通用处理器上的失败,却在DSP领域获得了成功。根本原因是DSP特殊的应用场景正好发挥了VLIW结构的优势,避开了它的短处。由于数字信号处理领域的算法比较单一稳定,同时是运算密集型程序,并不需要通用场景下的实时控制。并且其程序运行有严格的时间要求,cache这种不可控时间的结构就不适合了,通常采用固定周期的TCM作为缓存,这样内存访问时间就固定了。有了上述的特征,静态编译在通用场合下面临的那些困难就不存在了,而其更高效的并行运算能力和简化的硬件结构被完全发挥出来。

    habana的Goya架构

    注意这些特点:运算密集,算法单一稳定,固定时间内存访问,这不也正是深度学习的特征么。运算密集不用说了,都是T级别的;目前主力算子都是矩阵乘累加和卷积,有很明显的运算特点;为了实现较大规模的运算单元和功耗控制,需要简化内存和总线结构,通常采取weight常驻,数据通过DMA搬运的模式,使用TCM作为片上缓存,这样也就具备了固定访问时间的特点。这样VLIW结构就可以很好的匹配深度学习算法的特点。同时由于基本算子的固定性,只需要向DSP那样手动实现各个运算库的支持,连编译器静态调度都可以做的简单。这样一方面简化硬件,利于大规模的堆叠算力资源,一方面简化编译设计,缩短软件开发周期和难度。因此VLIW在深度学习领域大放异彩也就不难理解。

    然而VLIW就一定是完美的了么?这个也不好说,毕竟以此为结构的加速器才刚刚展露头角,还没有经受大规模的实践检验。其中可能存在的几个问题也许会制约VLIW在AI领域的继续发展。首先是软件的灵活性,随着AI的发展,需要支持的框架和算法也越来越多,这样对灵活性和通用性的要求会提高,这对VLIW的通用性提出了挑战。其次,VLIW通常在较大算力的芯片上能够良好发挥,而对于一些小算力的应用场景,其较大的位宽和执行能力反倒受限于成本的压力,而VLIW并不像传统的乱序多发射结构,具有较好的可伸缩性。第三,对于稀疏链接的深度神经网络,会出现很多run-time才能发现的0值,如何跳过0值进行运算压缩一直是一个探索方向,而VLIW的静态编译无法发现这一点,因此需要硬件动态调度,而这样会对已经排布好的指令包的依赖关系造成影响,导致无法全流水执行,同时又会回到安腾的两难境地。因此目前的VLIW结构多面向稠密运算。针对这些问题,还需要进一步的架构探索。

    【1】​https://baijiahao.baidu.com/s?id=1624408534896307195&wfr=spider&for=pc

    【2】https://www.anandtech.com/show/14760/hot-chips-31-live-blogs-habanas-approach-to-ai-scaling

    【3】Computer Architecture A Quantitative Approach (6th Edition)

     

    转载自:https://zhuanlan.zhihu.com/p/101538383

    展开全文
  • 机器学习(ML)和深度学习(DL本质上多样化的两种人工智能解决方案。这些学习类型有各种子类型,例如监督学习,非监督学习,强化学习和半监督学习。 在本文中,我们将专注于强化学习,深入研究强化学习的含义...

    在这里插入图片描述
    人工智能(AI)的发展迅速,估计市场规模为73.5亿美元。如今,人工智能不断影响着我们日常生活的方方面面。因此,许多科技公司正在构建由渗透测试人员和道德黑客设计和编程的由AI驱动的最先进的网络安全防御解决方案。

    机器学习(ML)和深度学习(DL)是本质上多样化的两种人工智能解决方案。这些学习类型有各种子类型,例如监督学习,非监督学习,强化学习和半监督学习。

    在本文中,我们将专注于强化学习,深入研究强化学习的含义以及如何将其应用到您的AI工作中。

    什么是强化学习?

    强化学习是训练机器学习模型以做出一系列决策的过程。然后,这可以帮助代理学习如何在不确定和复杂的环境中实现目标。人工智能在强化学习中面临着游戏般的局面。

    计算机将使用反复试验的方法来提出问题的解决方案。程序员可以通过对AI所执行的每个动作进行奖励或惩罚来使机器完成他或她想要的事情。然后,这有助于人工智能最大化总回报。

    深度强化学习方法中使用的重要术语

    强化学习中使用的一些重要术语是:

    代理:这是一个假定的实体,可以在环境中执行操作以获取奖励。

    环境:这是座席面临的场景。

    状态:这是环境返回的当前情况。

    奖励:这是代理商执行特定操作后立即获得的回报。

    价值:与短期奖励相比,这是预期的长期回报,有折扣。

    策略:这是代理程序用来根据当前状态决定其下一步操作的策略。

    环境模型:通常模拟环境的行为。然后,它将帮助程序员进行推理并确定环境的行为方式。

    Q值:这与值大部分相同。但是,Q值有助于将其他参数用作当前操作。

    强化学习要点

    强化学习中使用的一些要点是:

    输入:这是模型将从其开始的初始状态。

    输出:通常有很多可能的输出,因为针对特定问题有多种解决方案。

    培训:这通常基于输入。这是因为模型将返回一个状态,然后用户可以根据其输出决定奖励或惩罚该模型。该模型将继续学习,并根据最大奖励确定最佳解决方案。

    强化学习的类型

    有两种类型的加固:

    积极加固
    由于某个特定的行为会增加事件的强度和频率,因此在事件发生时会发生正向强化。这意味着它对行为有积极影响。

    积极加固的优势
    有助于长期保持变化。
    有助于最大化性能。
    正强化的缺点
    这可能导致状态过载,如果增强太多,状态过载。
    负加固
    在此过程中,由于避免或停止了负面条件,因此特定行为得到了加强。

    负筋的优点
    它可以帮助代理商拒绝最低性能标准。
    它增加了行为。
    负筋的缺点
    它只能为代理提供足够的资源来满足最低行为要求。
    强化学习的应用
    您可以在机器学习和数据处理中使用它。
    您可以在工业自动化机器人中使用它。
    可用于创建根据学生要求具有定制说明和材料的培训系统。
    可用于大型环境中,例如:
    当您只能通过与环境进行交互来收集有关环境的信息时。
    如果您仅了解环境的模型,但无法使用解析解决方案。
    如果仅给出环境的仿真模型。

    强化学习算法

    程序员可以使用三种方法来实现强化学习算法。

    基于价值
    使用该方法时,应始终尝试使值函数V(s)最大化。此外,代理将期望在策略π下当前状态的长期回报。

    基于政策
    在这种方法中,您将尝试提出一个策略,该策略是在每种状态下执行的操作将帮助代理在将来获得最大的回报。可以使用两种基于策略的方法,即:

    确定性
    随机
    基于模型
    使用这种方法,您将为每个环境设计一个虚拟模型。然后,代理将学会自己在该特定环境中执行操作。

    强化学习模型
    强化学习中使用的两个重要的学习模型是:

    马尔可夫决策过程

    Q学习
    更深入地了解强化学习
    强化学习是至关重要的人工智能范式转变,因为它为从金融业到机器人技术的AGI创造了一条道路,并将在塑造AI的未来中发挥重要作用。

    展开全文
  • 深度学习为什么要降低学习率 不论Google夺冠的DeepMind AlphaGo... 为了深入探讨这个问题(的,我到那儿去了),我与专注于深度学习的公司Skymind的团队取得了联系,该公司是Java深度学习(DL4J)的创建者,以...

    深度学习为什么要降低学习率

    不论是Google夺冠的DeepMind AlphaGo胜利,还是Apple将“使用深度神经网络技术”编织到iOS 10中 ,深度学习和人工智能如今都风行一时,并有望使应用程序与我们的互动方式达到新的高度。区区凡人。

    为了深入探讨这个问题(是的,我到那儿去了),我与专注于深度学习的公司Skymind的团队取得了联系,该公司是Java深度学习(DL4J)的创建者,以及最近发行的O'Reilly著作Deep的作者学习:从业者的方法 ,乔什·帕特森(Josh Patterson)和亚当·吉布森(Adam Gibson)。 乔希(Josh)和亚当(Adam)在这次采访中为我们提供了对该主题的温和介绍,并深入了解了他们如何围绕深度学习构建基于开源的业务。

    对于初学者来说,什么是深度学习(DL)?为什么我要关心它?

    Adam Gibson(AG):深度学习只是神经网络的另一个术语,神经网络是已经存在了数十年的一系列算法。 长期以来,人们一直对它们持怀疑态度,但是随着芯片变得越来越强大,以及我们收集到更多数据来对其进行训练,深度神经网络开始打破记录。 我们在许多问题上都达到了专家级的准确性,其准确率高达90年代,这是对其他算法的巨大飞跃。 因此,如果您遇到与业务有关的问题,则可以将一美元的价值附加到准确性的提高上;如果您是一家大型企业,则该价值可能是巨大的。 这是竞争优势,对利润率有很大影响。

    这是竞争优势,对利润率有很大影响。
    Josh Patterson(JP):在亚当所说的基础上,通过深度学习,我们正在从手动特征创建转向自动特征学习。 深度学习的诀窍是识别输入数据类型,并将其与正确的深度网络架构进行匹配,以实现强大的自动化功能学习。 一个例子是卷积神经网络(CNN)如何自动学习复杂图像数据中的特征,而从历史上看,这对于其他机器学习方法来说更困难。

    DL最适合哪些问题? Skymind的典型用例是什么?

    AG:深层神经网络可以对数据进行分类,聚类和做出预测。 您可以将它们应用于非结构化数据,例如语音或图像,这是无人驾驶汽车,AlphaGo和Alexa在新闻中看到的。 但是它们对于诸如交易和网络活动之类的结构化数据也非常有用,尤其是当您随着时间的推移寻找模式时。 这可以应用于欺诈检测,推荐系统,客户流失预测或市场预测。 那就是深度学习的优势所在。 因此,通过应用深度学习,企业将面临的许多古老而棘手的问题将得到改变。

    JP:我看到最多的是问题大数据浪潮中各种用例的混合,然后是由于更精确的模型使其在生产中可行而从企业研究中出现的问题。 大数据用例的一个例子是使用事务性数据的任何事物,我们通常将这些事物存储在Hadoop中。 DL4J在Spark上本地运行,因此它可以轻松安全地构建带有长短期记忆(LSTM) 循环神经网络的模型,用于交易传感器数据。 新的用例包括使用CNN进行高级图像建模,在此我们可以帮助企业分析场景中的对象,该场景在零售等领域具有应用。

    向我们的听众介绍深度学习4 Java(DL4J)。 它具有什么功能?与TensorFlow和/或其他值得注意的DL框架相比有什么特点?

    AG:首先要注意的是Deeplearning4j得到了商业支持的支持。 其他框架没有公司签署服务级别协议来保证其性能。 其余的只是库,如果您的任务关键型应用程序崩溃了,那么,祝您好运。 如果您使用Deeplearning4j,Skymind会为您提供电话号码。 这是设计时考虑到企业的唯一框架。

    其次,Deeplearning4j专注于Java和Scala,并与Hadoop,Spark,Akka和Kafka等Java虚拟机(JVM)堆栈集成。 其他库是Python或Lua,并且在没有大量定制的情况下无法很好地部署到生产环境中。 Deeplearning4j捆绑在称为Skymind Intelligence Layer或SKIL的企业发行版中。 SKIL经过docker化,并在数据中心操作系统(DCOS)和Mesos之上运行。 因此,它与平台无关,并带有资源管理。 那是独一无二的。 许多云供应商正在设计与平台无关的库,因此您将需要锁定和转换成本。 SKIL包含一种微服务部署方法,您可以在其中灵活地自动缩放我们的推理模型,以处理大量流量。

    最后,Deeplearning4j包括深度强化学习以及神经网络。 这就是今年击败围棋冠军的面向目标算法。

    JP: 《财富》 500强企业在深度学习方面需要的东西是一种使深度学习的力量民主化并以其使用方式的方式,就像看到Facebook和Google等商店那样使用它。 我们在Hadoop和大数据上看到了这一点,其中财富500强公司希望使用Yahoo这样的类似技术,但他们需要的版本与他们运行数据中心的方式兼容。 这产生了Hadoop发行版,例如Cloudera发行版,包括Apache Hadoop(CDH)和Hortonworks Data Platform(HDP)。 以类似的方式,我们看到DL4J担当了这个角色,并且IT部门可以轻松安全地运行它,同时仍然能够在他们的Hadoop投资的基础上使用Spark和图形处理单元(GPU)构建高级模型。我已经做了。

    我需要什么样的背景才能从事DL? 我该如何开始? 我应该首先学习非基于DL的机器学习吗?

    AG:我们看到了构建机器学习解决方案所需技能的转变。 诸如随机森林或梯度增强机(GBM)之类的传统算法可能需要大量的特征工程。 也就是说,您需要作为领域专家的要素工程师来告诉算法要寻找的内容。 这些工程师人数不足,因此这是使机器学习更加普及的真正瓶颈。 而且,没有什么要学习如何在不再先进的算法上进行特征工程的知识。

    深度学习有所不同,因为神经网络会自动提取特征。 您不必告诉他们要寻找什么。 现在,必要的技能包括调整那些网络的超参数。 有很多最佳实践。 我们通过本书和我们的工作坊教人们如何做到这一点,许多人通过加入我们的开源社区来学习。

    JP:深度学习需要对统计和线性代数的基础知识进行一些投资。 但是,随着技能的稳步发展,可能只是对成为基本从业人员感兴趣的人就职了。 在这种程度上,我和亚当与奥赖利(O'Reilly)的《 深度学习,从业者的方法》The Deep Learning,A Practitioner's Approach)共同写了一本书,专门针对任何愿意参加此旅程的人。

    为了满足市场对更高级和智能应用程序的需求,我们需要进一步使深度学习的概念民主化。 我们觉得这本书对于从业者来说是一个不错的选择,可以帮助他们逐步熟悉深度学习的概念。

    我希望从您的书中学到什么? 谁是您的目标受众?

    AG:一方面,我们的目标受众包括从深度学习入手的人员:他们可能是数据工程师和架构师,Java系统工程师或想要了解其原理并了解其适用范围的商人。 另一方面,我们写了一本书,将教深度学习专家如何通过使用JVM工具扩展神经网络将其部署到生产中。 他们可能还会学到其他技巧。

    机器学习和深度学习应用程序市场在某些方面类似于1990年代HTML和Web扩展到几乎所有内容的方式。 本书的设计适用于所有级别,从具有Java基本经验的人员到博士研究人员,他们只需要一整套有关神经网络调整技巧的章节即可。 较新的用户将希望从第1章开始阅读,并从头到尾阅读这本书,而高级用户则可能只希望阅读两个调优章节。 神经网络和深度网络调整不仅限于DL4J,而且这些章节适用于任何深度学习框架。 我们还花时间讨论提取,转换,加载(ETL)和矢量化技术,这些在现实世界中的机器学习建模的实际工作流程中很重要。 我们以关于Spark的一章作为本书的结尾,并说明了DL4J的代码如何在不做任何更改的情况下迁移到Spark,然后看了一些示例。 关于“什么是人工智能?”的主题,有十多个附录章节。 强化学习入门。

    Skymind是如何开始的?如何在基于DL4J之类的开源项目上开展业务?

    AG: Skymind于2014年初开始运营。我和Chris的共同创始人共同认为,企业需要开放源代码人工智能(AI)层,就像它具有用于Hadoop或Linux操作系统的大数据存储的开放源代码层一样。 似乎人工智能层具有创造潜力的潜力。 Josh帮助我们看到了这一点。 因此,与他一起,我们创建了Deeplearning4j,自那时以来,它已成为JVM最大的深度学习框架。 我们遵循的是典型的开放核心手册:Skymind确实为我们的企业发行版Skymind Intelligence Layer提供支持,培训和服务。 每个开放源代码业务都在某处划清界限,而SKIL也捆绑了几个封闭源代码包。 我们通过发行版帮助大公司构建深度学习解决方案,该发行版可以轻松部署到他们拥有的堆栈中。 而且由于是Java,因此他们可以利用现有团队来使用它。

    JP:我想我们已经在当今机器学习的流行趋势与财富500强IT部门在生产中合理运行之间的合理位置之间找到了一个有趣的地方。

    我听说DL需要真正的高端硬件和大量GPU,典型部署是什么样的?

    AG:我们的客户只有中央处理器(CPU),我们的客户只有GPU。 GPU确实对图像处理特别是深度学习的训练阶段很有帮助。 使用神经网络,首先要训练它们,然后使用它们来推断数据。 训练阶段需要大量计算,因此,如果您想快速获得训练好的模型,则应考虑使用GPU。 推理阶段可以通过CPU完成。 您可以在两个阶段同时使用两种芯片,但是要在大型数据集上进行训练,多GPU配置很方便。

    JP:我觉得我们是一家商店,正在使GPU成为数据仓库的实用选择。 Adam在ND4J方面做得很出色,使从CPU到GPU的切换变得如此简单和无缝,以至用户以后不必再做出这些芯片决定。 有了ND4J,芯片决策就变成了“更快的培训使它成为更好的业务案例吗?”的功能。 当答案为“是”时,它将为我们的GPU供应商朋友创造一个有趣的机会。

    机器学习通常需要在后台进行“人在回路中”的工作,以清理和注释数据,调整参数并验证结果。 获取基于DL的生产解决方案的典型工作流程是什么样的?

    AG:是的。 您需要收集相关数据,使其可访问,并确保其足够干净以向算法传授知识。 深度神经网络可以在非常大的数据集中容忍大量噪声,因此清理并不像以前在较小的数据集上那么重要。 如果要构建分类器,则需要带注释的数据,这是人们使用Mechanical Turk或CrowdAI之类的初创公司解决的问题。 实际上,我们使用cats整理了典型数据工作流程的图像,这很有趣。 获得数据后,您将进入神经网络的调整和训练阶段。 这是迭代的。 您调整超参数并设置架构,然后查看网络是否学习。 泡沫,冲洗,重复。 这就是为什么GPU在训练阶段非常有用的原因,因为您想快速迭代,而不是闲逛。 最后,您针对从未见过的数据测试模型,如果数据通过测试,则可以在实际环境中进行测试。

    JP:从实际出发,我们知道ETL和矢量化对于大多数财富500强机器学习团队来说都很难。 考虑到这一点,我们既在书中专门写了一章,又在DL4J套件DataVec中构建了一个特定的工具来处理这些功能。 DataVec允许我们从原始数据创建复杂的多维矢量和张量输入到DL4J。 它还允许在矢量化的准备和清除阶段执行许多常见的ETL功能。 DataVec可以在本地笔记本电脑上运行,也可以作为Hadoop集群上的Spark应用程序本地运行。 GitHub存储库和本书中的所有示例均使用DataVec作为选择的矢量化工具。

    现在在这个领域有很多炒作。 您如何在不追逐自己的尾巴或不关注真实事物的情况下利用它做生意?

    AG:公司对此领域的宣传和喧闹声很多,但并不是很认真。 每个初创公司都知道他们可以说自己做AI,而实际上只是逻辑回归,就可以使自己的估值增加20%。 我担心解决方案提供商会因承诺过多和交付不足而使这里的油井中毒。 早期因人工智能而陷入困境的企业不会再回来,这会伤害到所有人。 他们应该做功课并获得参考。 我们在深度学习中取得的进步是真实的,它们将以我们未来几年甚至无法预料的方式改变社会和商业。 阅读的人越多,他们就会看到越多的公司和初创公司将AI作为其使命。 我们是一家纯粹的深度学习创业公司。 我们已经为此进行了多年努力,拥有成千上万的用户。 我们专注于为我们的用户和客户提供良好的体验,通过支持和更好的产品使他们成功。 我们听取他们的意见,并解决他们面临的问题。 最终,其他人注意到我们已经解决了他们遇到的重大问题,例如使用Spark进行分布式培训,为JVM带来硬件加速,为JVM构建Numpy和Cython以及简化生产部署。 那是橡胶与道路相遇的地方。

    JP:我经历了智能电网,云,大数据以及现在的深度学习浪潮。 这些浪潮很像海洋浪潮,它们进入了市场,每个人都热衷于营销主题,然后浪潮消散,许多没有充分扎根的事情被席卷了。 这些人会保持自己的头并在高潮中找到坚实的立足点,当潮汐消失时,他们可以维持自己的生命。

    在Skymind,我们专注于客户和合作伙伴,专注于他们今天遇到的实际问题。 我们竭尽全力避免出现在未来12个月内无法投入生产或仅在某些新闻稿中发布的内容。 上个月,我们不一定总是有一个新的网络体系结构变体,但是我们将成为企业深度学习的平台,它是财富500强中最安全,最可互操作且最容易使用的平台。

    我们正在积极寻找方法,以帮助财富500强企业实现其在大数据基础架构上的投资回报(例如,我们与Hadoop和Spark的早期集成)。 从概念验证过程到GitHub存储库,再到本书,一切都集中在这种思想和方向上。

    您什么时候为我打造一个为我编写此专栏的有情机器人?

    AG:我不是告诉你我雇了一个机器人来回答这些问题吗? 现代技术是神奇的。

    JP:好吧,我们基于LSTM的机器人还没有写专栏,但是我们确实有写啤酒评论的人Lager Bot

    翻译自: https://opensource.com/life/16/10/deep-learning-artificial-intelligence

    深度学习为什么要降低学习率

    展开全文
  •   2019-01-29 12:13:48 ...咨询机构德勤咨询公司的调查表明,除了机器学习(ML)和深度学习(DL)的相关领域之外,37%的早期采用企业已经在认知技术上投资了500万美元或更多。多达83%的这些公司已经报告获得了...

    https://www.toutiao.com/a6651767157778547212/

     

    2019-01-29 12:13:48

    导读: 人工智能(AI)如今已成为企业CIO和其他高管关注的热门技术主题。咨询机构德勤咨询公司的调查表明,除了机器学习(ML)和深度学习(DL)的相关领域之外,37%的早期采用企业已经在认知技术上投资了500万美元或更多。多达83%的这些公司已经报告获得了“适度”或“实质性”的好处。

    「情报局41」人工智能的下一个目标是什么?了解业务用例

     

    人工智能(AI)如今已成为企业CIO和其他高管关注的热门技术主题。咨询机构德勤咨询公司的调查表明,除了机器学习(ML)和深度学习(DL)的相关领域之外,37%的早期采用企业已经在认知技术上投资了500万美元或更多。多达83%的这些公司已经报告获得了“适度”或“实质性”的好处。

    德勤咨询公司的报告指出,通过这些基础投资将为更高级的长期实施铺平道路,例如在一系列现成软件包中提供的认知能力。

    那么,企业CIO将如何采用人工智能技术?以及将来如何开发他们的业务用例?

    利用信息创造新的智慧

    金融数据组织Experian公司的全球首席信息官Barry Libenson表示,人工智能和机器学习等新兴技术将成为“游戏规则改变者”。简单来说,机器学习可以为企业创造更好的洞察力。

    Libenson认为,数字化领导者可以将社交媒体数据等信息与财务数据相结合,并创造新知识。

    他说,“我们已经看到了一些非常有趣的事情:有些人非常富有,他们从不借钱,他们可能没有很好的信用记录。但是,如果查看一下某人的社交媒体资料,就会知道他们喜欢什么,他们在哪里消费,实际上可以通过基于社交媒体数据的见解和数据表明其行为和信用。”

    Libenson表示,机器学习的另一个有趣的应用是基础设施管理领域。他说,“我们会通过认知技术了解到某些行为,我们可以从中吸取教训。这不是什么新鲜事,而技术变得更加进步。用户可以自己分析和判断,这样就可以根据其看到的某些情况确定什么时候会出现问题。”

    Libenson说,在某些情况下,人类不一定能看到细微的变化,而机器则在这一方面具备更强的能力。他的团队从DynaTrace日志中获取数据,该日志可以监视系统行为,并将该信息提供给Splunk。这种以机器学习为主导的方法可以查找到人类不一定会检测到的数据模式。

    “Splunk可以看到它,因为它有处理信息的能力。”Libenson说。“如果它看到某些事情,它会提醒操作中心的人,并指出Dynatrace日志和Splunk报告了一些不寻常的行为,因此工作人员将会查看到底发生了什么。”

    Libenson说,这种知识对业务绩效有着积极影响。他补充说,“这可以防止系统中断或故障转移到另一台设备,现在还有很多更智能的机器学习应用程序。”

    利用云计算技术探索新兴技术

    《吉尼斯世界纪录大全》(GWR)IT总监Rob Howe通过使用数字技术支持其组织的业务转型。该公司在Howe的领导下不断发展壮大,从一家出版世界记录的出版社发展成为一家在营销活动中与知名品牌合作的创意咨询公司。

    Howe领导开发了一种分阶段的数字化转型方法,其中包括实施SDL的记录管理平台、资产银行的数字资产管理系统和Salesforce CRM技术。作为转型过程的最后阶段,《吉尼斯世界纪录大全》(GWR)选择Ensono来管理其业务关键型IT架构向AWS云平台的迁移。

    Howe的目标是将云计算作为进一步创新的平台。他说,下一步是将GWR的应用程序编程接口(API)层转换为微服务。Howe和他的团队然后考虑应该将哪种类型的数据推送到边缘位置。最后他表示,可能会考虑如何利用机器学习,尽管认识到这个阶段目前有些超前。

    Howe说,“这是一个想法,但需要更多的思考。这将解决我们面临的挑战之一的一个潜在解决方案,但在我们采用云平台之前,它一直被搁置。对我们来说,现在实施还为时过早——我们在今年9月底采用AWS云计算基础设施。随着该服务发布新版本,我们将考虑升级资产平台。我们还可以查看是否可以使用机器学习以更有效和自动化的方式帮助处理一些记录应用程序。现在,我们已经完成了这一举措,并展示我们提高价值的领域,并让其他部门参与新的服务。”

    接受人工智能以释放宝贵的人力资源

    英国国民健康保险服务管理局(NHSBSA)首席数字官Darren Curry也在领导着一个数字化转型计划。这一计划的实施始于2015年,英国国民健康保险服务管理局(NHSBSA)当时考虑如何将其管理的产妇服务纸质记录实现数字化。

    “当我们开始考虑转型时,人工智能并没有在我们的议事日程上。”Curry说,他认为人工智能在英国国民健康保险服务(NHS)中具有“巨大的潜力”。

    英国国民健康保险服务管理局(NHSBSA)于是采用了云优先的托管策略。除了向按需IT转变之外,Curry还热衷于确保人工智能等新兴技术得到开发,而且这项工作已在进行中。

    “我们在纽卡斯尔的联络中心每年与470万名客户联系,并处理接听询问养老金电话、全科医生的请求,以及其他与健康相关的咨询等事务。我们最近在联络中心采用了亚马逊Alexa人工智能技术,用于拨打有关欧洲健康保险卡(EHIC)的电话。”Curry说。

    Curry表示,英国国民健康保险服务管理局(NHSBSA)实施了这项技术,其过程从概念到上线运营只用了两周的时间。四周之后,他的团队将其服务升级到全天候服务。该技术有助于支持联络中心运营商呼叫量减少45%。这样做的目的是为了避免让接线员接听简单的呼叫电话。

    Curry说,“人工智能将帮助我们处理诸如'我可以在澳大利亚使用欧洲健康保险卡(EHIC)吗?'等问题。通过应用该技术,我们大大减少了呼叫数量。我们还打算将人工智能用于其他一些工作流程,并在我们的呼叫中心运营中推出亚马逊Alexa服务。”

    研究认知能力如何促进运营活动

    运输商Addison Lee公司的首席信息官Ian Cohen表示,有效利用新兴技术,需要安全地使用客户数据。他指出,当客户允许组织获取数据时,组织必须遵守一些安全义务。

    他说:“很多人提交个人信息以获得免费Wi-Fi或在Facebook上玩游戏。希望人们能够更加谨慎,了解他们拥有的数据的真正价值。”

    作为这一前瞻性进程的一部分,Addison Lee公司正在研究如何在全球各地开发和使用自动驾驶汽车。Cohen表示,他的公司在如何调度汽车来满足伦敦周边的客户要求方面拥有30年以上的数据。

    他说,“我们每天获得大约25,000次行程的数据,超过90%是根据驾驶员可用性、交通状况和使用一组算法的交通服务自动分配的。”他认为,其业务的发展应该超越更广泛的行业背景。

    “我们需要了解采用人工智能时会发生什么,如何从这些环境中学习和获取洞察力,以及如何将学习带入程序化状态。人工智能的应用还有很长的路要走,人们仍需要通过机器学习来迈出第一步。而认知、情境和情境意识的人工智能是为未来服务的。”

    使用数据为利益相关者和客户创造价值

    Sky公司数字决策和分析主管Rob McLaughlin表示,新兴技术被认为是一个极其复杂的领域,因为许多事情同时发生。他说,虽然许多企业高管都在谈论和尝试使用人工智能,但他们的公司仍然没有解决一些基本问题。

    McLaughlin说,“机器学习最好被理解为是一种统计技术,用户可以用它来做任何事情,它不必用来行动,它可用于分析数据集。人工智能更多的是做出某种形式的决定,这更适用。人工智能几乎总是与利用机器学习有关。”

    McLaughlin说,以人为本的规则在向企业利益相关者解释决策方式时非常有用。例如有人喜欢运动,服务团队可能会推荐基于足球的产品。然而,人工智能的黑盒技术所建议的关系可能更难理解并向利益相关者解释。

    “我们正在创建一些功能,例如将应用程序编程接口插入主页、联络中心系统或移动应用程序。这种采用需要与企业业务人员建立牢固的关系,管理这些可能是一个复杂的过程。”McLaughlin说。

    McLaughlin的团队确保他们的活动符合利益相关者的要求。他们必须努力实现三个业务目标中的一个:向上销售和交叉销售,即推荐产品;在生活中,确保客户使用更多的产品;以及服务消息传递,这是关于以有效的方式与客户打交道。

    McLaughlin指出,“获取数据必须是积极的事情,必须帮助让客户满意。那些无法建立消费者与企业之间关系的数据是没有发展前途的。而真正的价值交换必须成为所有面向客户的组织的首要任务。”

     

     

    展开全文
  • 什么选择Python Python最通用和流行的语言之一。 它具有从Web开发和数据科学到GUI应用程序,脚本和游戏开发的广泛应用。 许多大公司每天都在使用它,并且在线资源的数量很大并且有据可查。 我的Python目标 由于...
  • 对于程序员来讲,很多技术真正掌握之后,都能影响甚至说改变一个人的命运,比如:python、AI、DL、算法等等,但是如果只让你选择其中的一项基础知识,你会选择哪个呢? 如果我, 我会选——数据结构与算法。 ...
  • 新建servlet之后出现错误是什么原因? 今天在学旺旺老师的第二课Servlet处理中文乱码,按照视频学习的时候,发现自添加了servlet文件之后,在IE中浏览出现404的错误,如下图 <br><img src="http://dl.iteye....
  • 如果您想了解有关这些公司中与AI /数据科学相关职位的要求的更多信息,则只需使用Google“在[公司名称]中的职位”,您会发现很多职位,这可以以某种方式告诉您要求是什么他们真的需要。 公司 领域 NLP,社交媒体...
  • 1、什么是多态?多态的实现方式有哪几种? 2、什么是抽象类?抽象类一般用于做什么?你用过抽象类么?怎么用的? 3、虚函数表怎么实现的? 4、操作系统中内存的管理方式?windows和linux下有区别么,有什么区别...
  • 公司的电脑也纠结。。。 源代码获取: 下载repo 当前目录/home/jinwh,也就是主文件夹 $ mkdir ~/bin 这目录,可能已经在了 $ PATH=~/bin:$PATH $ curl ...
  • 晚上11点多支付宝大楼!... 什么是完成工作?60分完成,80分完成,100分也完成,你要的多少?青春用来拼搏的,而不是用来挥霍的!选择奔跑,选择努力! [img]http://dl2.iteye.com/upload/...
  • 生产制造业,公司决定购入一套WMS系统。供应商报了硬件的报价如下: 服务器——型号:HP DL380p Gen8 8-SFF CTO ...存储站什么用的?另外,AP控制器的价格是不是太高了? 望有这方面经验的朋友指点下,谢谢啦
  • 2018年,大家知道最火的是什么吗?对,是区块链,然而,目前区块链主要的内容集中在币圈,可能做金融的同学比较关注和喜欢,但是在一般电商、行业互联网中,我们刚刚经历了大数据、ML、DL的洗礼,这些技术很多还没有...
  • WinCVS配置

    千次阅读 2007-05-06 16:32:00
    而且不是公司的项目也没必要搞个Linux什么的。就弄个WinCVS就可以.下载地址:http://jaist.dl.sourceforge.net/sourceforge/cvsgui/WinCvs2_0_9.zipcvsNT下载运行CVSNT控制面板,然后建立库。最重要的
  • AGUDLP原则与应用

    千次阅读 2020-06-11 10:12:35
    假设,公司有两个域,A和B,A中的5个财务人员和B中的3个财务人员都需要访问B中文件共享服务器的“FINA”文件夹,这时,你可以在B中建一个DL,因为...因为DL是在B域中,所以管理权也在B域,如果A域中的5个人变成6个人,
  • 提供DL解决方案的公司(例如Amazon,Tesla,Salesforce)处于股票市场的前列,并吸引了可观的投资。 什么是深度学习?  深度学习机器学习的子集之一,它使用深度学习算法根据输入数据隐式得出重要结论。  通常,...
  • Jprofiler

    2019-07-10 15:52:07
    一、JProfiler是什么 JProfiler是由ej-technologies GmbH公司开发的一款性能瓶颈分析工具,非常强大,分析cpu使用内存使用,虚拟机垃圾回收情 况等等 二、破解安装 破解版本:...
  • 什么是coshsh? Coshsh一个框架,可帮助您为开源监视系统生成配置文件。 我可以贴上贴纸吗? 的! 在Franziskanerstraße38,81669München的Consol上拜访我,我给你一个。 特征 coshsh非常快。 (在10秒内...
  • 首先要弄清楚NFC是什么? [img]http://dl.iteye.com/upload/attachment/471075/a760e498-60e7-398c-8f23-e7bae2f0f83a.jpg[/img] NFC是Near Field Communication缩写,即近距离无线通讯技术。由飞利浦公司和...
  • 图神经网络中的过平滑问题

    千次阅读 2021-06-07 10:18:03
    图神经网络或简称 GNN 用于图数据的深度学习 (DL) 模型。 这些年来它们变得很热。 这种趋势在 DL 领域并不新鲜:每年我们都会看到一个新模型的脱颖而出,它要么在基准测试中显示最先进的结果,要么一个全新的...
  • ,现问题,表单中的数据自动填充的,当只想修改部门时,没有该公司下的可选部门, :shock: 需点选公司后,部门才有所需的级联数据,级联的公司部门数据本地的,没有从数据库中获取,请问有什么好的解决方法和...
  • java业余学习GO(一)

    2020-01-20 10:46:10
    简介什么的就不说了,网上一大推. 这里只是和大家分享下我的学习过程. 安装 首先前往(https://golang.google.cn/dl/)该网站下载自己需要的go语言开发包....这里我选择的Goland,同idea一样JetBrains 公司开发的IDE...
  • 面试的一些经验

    2017-12-12 19:04:25
    第一家图谱科技,电话面试,我当时才看了Stanford的dl一半的课程,中间还有的跳过了。然后问的问题主要: 1、做过什么项目(demo也行)(我什么都没做过,当时就是找网上的例子跑了一遍mnist) 2、简单介绍SVM...
  • DeepLearning4J intro

    2018-03-10 22:36:36
    心想人工智能界编程语言的大佬非python莫属,但是前几天看美团技术沙龙又提到推荐系统的线上版本就是用的它,的确,在大数据量、高并发的今天,很多公司服务端开发语言都Java,有需求就有供给,因而诞生了DL4J这样...
  • 1,Tez是什么? Tez是Hortonworks公司开源的一种新型基于DAG有向无环图开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能,看下面一张图,就能说明问题: [img]...
  • winform皮肤使用 winform皮肤下载

    千次阅读 2008-11-07 10:26:00
     这些东西原本公司付费的东西,不过满地都破解版的(要是付费没人愿意要这些没有质感的东西),我也从别处弄来的,本来以为这很神秘的东西让我很失望!不过如果你对界面要求不高的话,不妨试试。 这皮肤...
  • 做技术有必要将自己的技术进行保留吗?...但是说真的,从去年一直到今年的10月份,都非常的繁忙的,现有公司的状况这样的,大量的服务器的硬件也比较老了,大部分为HP ML370 ,DL380等服务器,操作系统大...
  • [img]http://dl2.iteye.com/upload/attachment/0105/3491/7c7b3bef-0dda-3ac6-8cdb-1ecc1dd9c194.jpg[/img] [b][color=green][size=large]在文章...1,Pig是什么? Pig最早是雅虎公司的一个基于Hadoop的并行处...
  • 原文地址 : http://dl528888.blog.51cto.com/2382721/804596 ...一、什么是动静分离 本文的动静分离主要通过nginx+tomcat来实现,其中nginx处理图片、html等静态的文件,tomcat处理jsp、
  • 更换硬盘前需要确认硬盘是什么型号,哪个系列的,以及硬盘的大小: 最重要的是SPARE号一定要保持一致。 下面给大家提供一下更换磁盘的一些资料以及注意事项: 1、更换的磁盘与原先的磁盘无比保持大小相同,型号...

空空如也

空空如也

1 2 3
收藏数 51
精华内容 20
关键字:

dl是什么公司