精华内容
下载资源
问答
  • 2018_AMiner_人工智能芯片研究报告 AMiner 研究报告第十四期 45Page
  • 2020上半年中国人工智能芯片行业研究报告.pdf
  • (3)进入2010年后,云计算广泛推广,人工智能研究人员可以通过云计算借助大量CPU和GPU进行混合运算,进一步推进了AI芯片的深入应用,从而催生了各类AI芯片的研发与应用。 (4)人工智能对于计算能力的要求不断快速地...
  • 2018 n 0 n A m ) Contents 6 . .
  • 清华Aminer:人工智能芯片研究报告 清华Aminer:
  • 人工智能芯片研究报告

    千次阅读 2018-12-14 23:30:27
    AI 芯片人工智能时代的技术核心之一,决定了平台的基础架构和发展生态。本报告在此背景下,对人工智能芯片的发展现状进行了简单梳理,包括以下内容: 人工智能芯片概念 AI 芯片的技术特点及局限性 AI 芯片厂商介....

    内容简介

    2010年以来,由于大数据产业的发展,数据量呈现爆炸性增长态势,而传统的计算架构又无法支撑深度学习的大规模并行计算需求,于是研究界对 AI 芯片进行了新一轮的技术研发与应用研究。AI 芯片是人工智能时代的技术核心之一,决定了平台的基础架构和发展生态。本报告在此背景下,对人工智能芯片的发展现状进行了简单梳理,包括以下内容:

    • 人工智能芯片概念
    • AI 芯片的技术特点及局限性
    • AI 芯片厂商介绍
    • AI 芯片领域专家介绍
    • AI 芯片的发展趋势介绍

    作者简介

    AMiner 平台,由清华大学计算机系研发,拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价、专家发现、智能指派、学术地图等科技情报专业化服务。

    系统2006年上线,吸引了全球220个国家/地区1000多万独立 IP 访问,数据下载量230万次,年度访问量超过1100万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

    系统相关核心技术申请专利50余项,发表论文500余篇,其中 SCI 论文110篇,编著英文论著两部,Google 引用超过11000次,SCI 他引超过2200次。

    项目成果及核心技术应用于工程院、科技部、自然基金委、华为、腾讯、阿里巴巴、百度等国内外20多家企事业单位,为各单位的系统建设及产品升级提供了重要数据及技术支撑。

    AMiner 唯一官方微信公众号:学术头条(ID:SciTouTiao)。

    AMiner 官方网站 https://www.aminer.cn/

    版权声明

    AMiner 研究报告提供给订阅用户使用,仅限于用户内部使用。未获得 AMiner 团队授权,任何人和单位不得以任何方式在任何媒体上(包括互联网)公开发布、复制,且不得以任何方式将研究报告的内容提供给其他单位或个人使用。如引用、刊发,需注明出处为“AMiner.org”,且不得对本报告进行有悖原意的删节与修改。

    AMiner 研究报告是基于 AMiner 团队及其研究员认可的研究资料,所有资料源自 AMiner 后台程序对大数据的自动分析得到,本研究报告仅作为参考,AMiner 团队不保证所分析得到的准确性和完整性,也不承担任何投资者因使用本产品与服务而产生的任何责任。

    本书内容

    摘要
    第一章 概述篇
    第二章 技术篇
    第三章 产业篇
    第四章 人物篇
    第五章 应用领域篇
    第六章 趋势篇
    参考文献

    阅读全文: http://gitbook.cn/gitchat/geekbook/5c1324471e59245d4d29d4d2

    展开全文
  • 人工智能立夏已至,AI芯片迎接蓝海(70页),资源名称:人工智能芯片行业深度研究报告:人工智能立夏已至,AI芯片迎接蓝海(70页)70页人工智能芯片行业深度研究人工智能立夏已至,AI芯片迎接蓝海;首推,英伟达GPU...
  • 人工智能芯片研究报告.pdf
  • 人工智能芯片研究报告.docx
  • 来源:Future智能摘要:大数据产业的爆炸性增长下,AI 芯片作为人工智能时代的技术核心之一,决定了平台的基础架构和发展生态。 近日,清华大学推出了《 人工智能芯片研究...

    640?wx_fmt=png

    来源:Future智能

    摘要:大数据产业的爆炸性增长下,AI 芯片作为人工智能时代的技术核心之一,决定了平台的基础架构和发展生态。 


    近日,清华大学推出了《 人工智能芯片研究报告 》,全面讲解人工智能芯片,系统梳理人工智能芯片的发展现状及趋势。 。


    一、基本知识及现状


    从广义上讲只要能够运行人工智能算法的芯片都叫作 AI 芯片。但是通常意义上的 AI 芯片指的是针对人工智能算法做了特殊加速设计的芯片, 现阶段, 这些人工智能算法一般以深度学习算法为主,也可以包括其它机器学习算法。


    深度学习算法,通常是基于接收到的连续数值, 通过学习处理, 并输出连续数值的过程,实质上并不能完全模仿生物大脑的运作机制。 基于这一现实, 研究界还提出了 SNN(Spiking Neural Network,脉冲神经网络) 模型。 作为第三代神经网络模型, SNN 更贴近生物神经网络——除了神经元和突触模型更贴近生物神经元与突触之外, SNN 还将时域信息引入了计算模型。目前基于 SNN 的 AI 芯片主要以 IBM 的 TrueNorth、 Intel 的 Loihi 以及国内的清华大学天机芯为代表。


    1、AI 芯片发展历程


    从图灵的论文《计算机器与智能》 和图灵测试, 到最初级的神经元模拟单元——感知机, 再到现在多达上百层的深度神经网络,人类对人工智能的探索从来就没有停止过。 上世纪八十年代,多层神经网络和反向传播算法的出现给人工智能行业点燃了新的火花。反向传播的主要创新在于能将信息输出和目标输出之间的误差通过多层网络往前一级迭代反馈,将最终的输出收敛到某一个目标范围之内。 1989 年贝尔实验室成功利用反向传播算法,在多层神经网络开发了一个手写邮编识别器。 1998 年 Yann LeCun 和 Yoshua Bengio 发表了手写识别神经网络和反向传播优化相关的论文《Gradient-based learning applied to documentrecognition》,开创了卷积神经网络的时代。


    此后,人工智能陷入了长时间的发展沉寂阶段,直到 1997年 IBM的深蓝战胜国际象棋大师和 2011年 IBM的沃森智能系统在 Jeopardy节目中胜出,人工智能才又一次为人们所关注。 2016 年 Alpha Go 击败韩国围棋九段职业选手,则标志着人工智能的又一波高潮。从基础算法、 底层硬件、 工具框架到实际应用场景, 现阶段的人工智能领域已经全面开花。


    作为人工智能核心的底层硬件 AI 芯片,也同样经历了多次的起伏和波折,总体看来,AI 芯片的发展前后经历了四次大的变化,其发展历程如图所示。


    (1) 2007 年以前, AI 芯片产业一直没有发展成为成熟的产业; 同时由于当时算法、数据量等因素, 这个阶段 AI 芯片并没有特别强烈的市场需求,通用的 CPU 芯片即可满足应用需要。


    (2) 随着高清视频、 VR、 AR游戏等行业的发展, GPU产品取得快速的突破; 同时人们发现 GPU 的并行计算特性恰好适应人工智能算法及大数据并行计算的需求,如 GPU 比之前传统的 CPU在深度学习算法的运算上可以提高几十倍的效率,因此开始尝试使用 GPU进行人工智能计算。


    (3) 进入 2010 年后,云计算广泛推广,人工智能的研究人员可以通过云计算借助大量 CPU 和 GPU 进行混合运算,进一步推进了 AI 芯片的深入应用,从而催生了各类 AI 芯片的研发与应用。


    (4)人工智能对于计算能力的要求不断快速地提升,进入 2015 年后, GPU 性能功耗比不高的特点使其在工作适用场合受到多种限制, 业界开始研发针对人工智能的专用芯片,以期通过更好的硬件和芯片架构,在计算效率、能耗比等性能上得到进一步提升。


    2、我国 AI 芯片发展情况


    目前,我国的人工智能芯片行业发展尚处于起步阶段。 长期以来,中国在 CPU、 GPU、DSP 处理器设计上一直处于追赶地位,绝大部分芯片设计企业依靠国外的 IP 核设计芯片,在自主创新上受到了极大的限制。 然而,人工智能的兴起,无疑为中国在处理器领域实现弯道超车提供了绝佳的机遇。


     人工智能领域的应用目前还处于面向行业应用阶段,生态上尚未形成垄断,国产处理器厂商与国外竞争对手在人工智能这一全新赛场上处在同一起跑线上,因此, 基于新兴技术和应用市场,中国在建立人工智能生态圈方面将大有可为。


    由于我国特殊的环境和市场,国内 AI 芯片的发展目前呈现出百花齐放、百家争鸣的态势, AI 芯片的应用领域也遍布股票交易、金融、商品推荐、安防、早教机器人以及无人驾驶等众多领域,催生了大量的人工智能芯片创业公司,如地平线、深鉴科技、中科寒武纪等。


    尽管如此, 国内公司却并未如国外大公司一样形成市场规模, 反而出现各自为政的散裂发展现状。除了新兴创业公司,国内研究机构如北京大学、清华大学、中国科学院等在AI 芯片领域都有深入研究;而其他公司如百度和比特大陆等, 2017 年也有一些成果发布。可以预见,未来谁先在人工智能领域掌握了生态系统,谁就掌握住了这个产业的主动权。


    3、AI学者概况


    基于来自清华大学AMiner 人才库数据,全球人工智能芯片领域学者分布如图所示, 从图中可以看到, 人工智能芯片领域的学者主要分布在北美洲,其次是欧洲。 中国对人工智能芯片的研究紧跟其后,南美洲、非洲和大洋洲人才相对比较匮乏。


    按国家进行统计来看美国是人工智能芯片领域科技发展的核心。 英国的人数紧排在美国之后。其他的专家主要分布在中国、 德国、 加拿大、意大利和日本 。

    对全球人工智能芯片领域最具影响力的 1000 人的迁徙路径进行了统计分析,得出下图所示的各国人才逆顺差对比。

    640?wx_fmt=jpeg

    可以看出,各国人才的流失和引进是相对比较均衡的,其中美国为人才流动大国,人才输入和输出幅度都大幅度领先。英国、 中国、 德国和瑞士等国次于美国,但各国之间人才流动相差并不明显。


    二、AI 芯片的分类及技术


    人工智能芯片目前有两种发展路径:一种是延续传统计算架构,加速硬件计算能力,主要以 3 种类型的芯片为代表,即 GPU、 FPGA、 ASIC,但 CPU依旧发挥着不可替代的作用;另一种是颠覆经典的冯·诺依曼计算架构,采用类脑神经结构来提升计算能力, 以 IBM TrueNorth 芯片为代表。


    1、传统的 CPU


    计算机工业从 1960 年代早期开始使用 CPU 这个术语。迄今为止, CPU 从形态、设计到实现都已发生了巨大的变化,但是其基本工作原理却一直没有大的改变。 通常 CPU 由控制器和运算器这两个主要部件组成。 传统的 CPU 内部结构图如图 3 所示, 从图中我们可以看到:实质上仅单独的 ALU 模块(逻辑运算单元)是用来完成数据计算的,其他各个模块的存在都是为了保证指令能够一条接一条的有序执行。这种通用性结构对于传统的编程计算模式非常适合,同时可以通过提升 CPU 主频(提升单位时间内执行指令的条数)来提升计算速度。


     但对于深度学习中的并不需要太多的程序指令、 却需要海量数据运算的计算需求, 这种结构就显得有些力不从心。尤其是在功耗限制下, 无法通过无限制的提升 CPU 和内存的工作频率来加快指令执行速度, 这种情况导致 CPU 系统的发展遇到不可逾越的瓶颈。


    2、并行加速计算的 GPU


    GPU 作为最早从事并行加速计算的处理器,相比 CPU 速度快, 同时比其他加速器芯片编程灵活简单。


    传统的 CPU 之所以不适合人工智能算法的执行,主要原因在于其计算指令遵循串行执行的方式,没能发挥出芯片的全部潜力。与之不同的是, GPU 具有高并行结构,在处理图形数据和复杂算法方面拥有比 CPU 更高的效率。对比 GPU 和 CPU 在结构上的差异, CPU大部分面积为控制器和寄存器,而 GPU 拥有更ALU(ARITHMETIC LOGIC UNIT,逻辑运算单元)用于数据处理,这样的结构适合对密集型数据进行并行处理, CPU 与 GPU 的结构对比如图 所示。程序在 GPU系统上的运行速度相较于单核 CPU往往提升几十倍乃至上千倍。随着英伟达、 AMD 等公司不断推进其对 GPU 大规模并行架构的支持,面向通用计算的 GPU(即GPGPU, GENERAL PURPOSE GPU,通用计算图形处理器)已成为加速可并行应用程序的重要手段。


    GPU 的发展历程可分为 3 个阶段, 发展历程如图所示:


    第 一 代 GPU(1999 年 以 前 ) , 部 分 功 能 从 CPU 分 离 , 实 现 硬 件 加 速 , 以GE(GEOMETRY ENGINE)为代表,只能起到 3D 图像处理的加速作用,不具有软件编程特性。


    第二代 GPU(1999-2005 年), 实现进一步的硬件加速和有限的编程性。 1999 年,英伟达发布了“专为执行复杂的数学和几何计算的” GeForce256 图像处理芯片,将更多的晶体管用作执行单元, 而不是像 CPU 那样用作复杂的控制单元和缓存,将 T&L(TRANSFORM AND LIGHTING)等功能从 CPU 分离出来,实现了快速变换,这成为 GPU 真正出现的标志。之后几年, GPU 技术快速发展,运算速度迅速超过 CPU。 2001 年英伟达和 ATI 分别推出的GEFORCE3 和 RADEON 8500,图形硬件的流水线被定义为流处理器,出现了顶点级可编程性,同时像素级也具有有限的编程性,但 GPU 的整体编程性仍然比较有限。


    第三代 GPU(2006年以后), GPU实现方便的编程环境创建, 可以直接编写程序。 2006年英伟达与 ATI分别推出了 CUDA(Compute United Device Architecture,计算统一设备架构)编程环境和 CTM(CLOSE TO THE METAL)编程环境, 使得 GPU 打破图形语言的局限成为真正的并行数据处理超级加速器。

    2008 年,苹果公司提出一个通用的并行计算编程平台 OPENCL(OPEN COMPUTING LANGUAGE,开放运算语言),与 CUDA 绑定在英伟达的显卡上不同,OPENCL 和具体的计算设备无关。


    目前, GPU 已经发展到较为成熟的阶段。谷歌、 FACEBOOK、微软、 TWITTER 和百度等公司都在使用 GPU 分析图片、视频和音频文件,以改进搜索和图像标签等应用功能。此外,很多汽车生产商也在使用 GPU 芯片发展无人驾驶。 不仅如此, GPU 也被应用于VR/AR 相关的产业。


    但是 GPU也有一定的局限性。 深度学习算法分为训练和推断两部分, GPU 平台在算法训练上非常高效。但在推断中对于单项输入进行处理的时候,并行计算的优势不能完全发挥出来。


    3、半定制化的 FPGA


    FPGA 是在 PAL、 GAL、 CPLD 等可编程器件基础上进一步发展的产物。用户可以通过烧入 FPGA 配置文件来定义这些门电路以及存储器之间的连线。这种烧入不是一次性的,比如用户可以把 FPGA 配置成一个微控制器 MCU,使用完毕后可以编辑配置文件把同一个FPGA 配置成一个音频编解码器。因此, 它既解决了定制电路灵活性的不足,又克服了原有可编程器件门电路数有限的缺点。


    FPGA 可同时进行数据并行和任务并行计算,在处理特定应用时有更加明显的效率提升。对于某个特定运算,通用 CPU 可能需要多个时钟周期; 而 FPGA 可以通过编程重组电路,直接生成专用电路,仅消耗少量甚至一次时钟周期就可完成运算。


    此外,由于 FPGA的灵活性,很多使用通用处理器或 ASIC难以实现的底层硬件控制操作技术, 利用 FPGA 可以很方便的实现。这个特性为算法的功能实现和优化留出了更大空间。同时 FPGA 一次性成本(光刻掩模制作成本)远低于 ASIC,在芯片需求还未成规模、深度学习算法暂未稳定, 需要不断迭代改进的情况下,利用 FPGA 芯片具备可重构的特性来实现半定制的人工智能芯片是最佳选择之一。


    功耗方面,从体系结构而言, FPGA 也具有天生的优势。传统的冯氏结构中,执行单元(如 CPU 核)执行任意指令,都需要有指令存储器、译码器、各种指令的运算器及分支跳转处理逻辑参与运行, 而 FPGA 每个逻辑单元的功能在重编程(即烧入)时就已经确定,不需要指令,无需共享内存,从而可以极大的降低单位执行的功耗,提高整体的能耗比。


    由于 FPGA 具备灵活快速的特点, 因此在众多领域都有替代 ASIC 的趋势。 FPGA 在人工智能领域的应用如图所示。


    4、全定制化的 ASIC


    目前以深度学习为代表的人工智能计算需求,主要采用 GPU、 FPGA 等已有的适合并行计算的通用芯片来实现加速。在产业应用没有大规模兴起之时,使用这类已有的通用芯片可以避免专门研发定制芯片(ASIC) 的高投入和高风险。但是,由于这类通用芯片设计初衷并非专门针对深度学习,因而天然存在性能、 功耗等方面的局限性。随着人工智能应用规模的扩大,这类问题日益突显。


    GPU 作为图像处理器, 设计初衷是为了应对图像处理中的大规模并行计算。因此,在应用于深度学习算法时,有三个方面的局限性:


    第一,应用过程中无法充分发挥并行计算优势。 深度学习包含训练和推断两个计算环节, GPU 在深度学习算法训练上非常高效, 但对于单一输入进行推断的场合, 并行度的优势不能完全发挥。


     第二, 无法灵活配置硬件结构。 GPU 采用 SIMT 计算模式, 硬件结构相对固定。 


    目前深度学习算法还未完全稳定,若深度学习算法发生大的变化, GPU 无法像 FPGA 一样可以灵活的配制硬件结构。 第三,运行深度学习算法能效低于 FPGA。


    尽管 FPGA 倍受看好,甚至新一代百度大脑也是基于 FPGA 平台研发,但其毕竟不是专门为了适用深度学习算法而研发,实际应用中也存在诸多局限:


    第一,基本单元的计算能力有限。为了实现可重构特性, FPGA 内部有大量极细粒度的基本单元,但是每个单元的计算能力(主要依靠 LUT 查找表)都远远低于 CPU 和 GPU 中的 ALU 模块; 


    第二、 计算资源占比相对较低。 为实现可重构特性, FPGA 内部大量资源被用于可配置的片上路由与连线;


     第三,速度和功耗相对专用定制芯片(ASIC)仍然存在不小差距;

     

    第四, FPGA 价格较为昂贵,在规模放量的情况下单块 FPGA 的成本要远高于专用定制芯片。


    因此,随着人工智能算法和应用技术的日益发展,以及人工智能专用芯片 ASIC产业环境的逐渐成熟, 全定制化人工智能 ASIC也逐步体现出自身的优势,从事此类芯片研发与应用的国内外比较有代表性的公司如图所示。


    深度学习算法稳定后, AI 芯片可采用 ASIC 设计方法进行全定制, 使性能、功耗和面积等指标面向深度学习算法做到最优。



    5、类脑芯片


    类脑芯片不采用经典的冯·诺依曼架构, 而是基于神经形态架构设计,以 IBM Truenorth为代表。 IBM 研究人员将存储单元作为突触、计算单元作为神经元、传输单元作为轴突搭建了神经芯片的原型。


    目前, Truenorth 用三星 28nm 功耗工艺技术,由 54 亿个晶体管组成的芯片构成的片上网络有 4096 个神经突触核心,实时作业功耗仅为 70mW。由于神经突触要求权重可变且要有记忆功能, IBM 采用与 CMOS 工艺兼容的相变非挥发存储器(PCM)的技术实验性的实现了新型突触,加快了商业化进程。


    三、AI芯片产业及趋势

    640?wx_fmt=jpeg

    1、AI芯片应用领域


    随着人工智能芯片的持续发展,应用领域会随时间推移而不断向多维方向发展,这里我们选择目前发展比较集中的几个行业做相关的介绍。


    AI芯片目前比较集中的应用领域


    (1)智能手机


    2017 年 9 月,华为在德国柏林消费电子展发布了麒麟 970 芯片,该芯片搭载了寒武纪的 NPU,成为“全球首款智能手机移动端 AI 芯片” ; 2017 年 10 月中旬 Mate10 系列新品(该系列手机的处理器为麒麟 970)上市。搭载了 NPU 的华为 Mate10 系列智能手机具备了较强的深度学习、本地端推断能力,让各类基于深度神经网络的摄影、图像处理应用能够为用户提供更加完美的体验。


    而苹果发布以 iPhone X 为代表的手机及它们内置的 A11 Bionic 芯片。A11 Bionic 中自主研发的双核架构 Neural Engine(神经网络处理引擎),它每秒处理相应神经网络计算需求的次数可达 6000 亿次。这个 Neural Engine 的出现,让 A11 Bionic 成为一块真正的 AI 芯片。 A11 Bionic 大大提升了 iPhone X 在拍照方面的使用体验,并提供了一些富有创意的新用法。


    (2)ADAS(高级辅助驾驶系统)


    ADAS 是最吸引大众眼球的人工智能应用之一, 它需要处理海量的由激光雷达、毫米波雷达、摄像头等传感器采集的实时数据。相对于传统的车辆控制方法,智能控制方法主要体现在对控制对象模型的运用和综合信息学习运用上,包括神经网络控制和深度学习方法等,得益于 AI 芯片的飞速发展, 这些算法已逐步在车辆控制中得到应用。


    (3)CV(计算机视觉(Computer Vision) 设备


    需要使用计算机视觉技术的设备,如智能摄像头、无人机、 行车记录仪、人脸识别迎宾机器人以及智能手写板等设备, 往往都具有本地端推断的需要,如果仅能在联网下工作,无疑将带来糟糕的体验。而计算机视觉技术目前看来将会成为人工智能应用的沃土之一,计算机视觉芯片将拥有广阔的市场前景。


    (4) VR 设备


    VR 设备芯片的代表为 HPU 芯片, 是微软为自身 VR 设备 Hololens 研发定制的。 这颗由台积电代工的芯片能同时处理来自 5个摄像头、 1个深度传感器以及运动传感器的数据,并具备计算机视觉的矩阵运算和 CNN 运算的加速功能。这使得 VR 设备可重建高质量的人像 3D 影像,并实时传送到任何地方。


    (5)语音交互设备


    语音交互设备芯片方面,国内有启英泰伦以及云知声两家公司,其提供的芯片方案均内置了为语音识别而优化的深度神经网络加速方案,实现设备的语音离线识别。稳定的识别能力为语音技术的落地提供了可能; 与此同时,语音交互的核心环节也取得重大突破。语音识别环节突破了单点能力,从远场识别,到语音分析和语义理解有了重大突破,呈现出一种整体的交互方案。


    (6)机器人


    无论是家居机器人还是商用服务机器人均需要专用软件+芯片的人工智能解决方案,这方面典型公司有由前百度深度学习实验室负责人余凯创办的地平线机器人,当然地平线机器人除此之外,还提供 ADAS、智能家居等其他嵌入式人工智能解决方案。


    2、AI芯片国内外代表性企业

    640?wx_fmt=png

    本篇将介绍目前人工智能芯片技术领域的国内外代表性企业。文中排名不分先后。人工智能芯片技术领域的国内代表性企业包括中科寒武纪、中星微、地平线机器人、深鉴科技、 灵汐科技、 启英泰伦、百度、华为等,国外包括英伟达、 AMD、 Google、高通、Nervana Systems、 Movidius、 IBM、 ARM、 CEVA、 MIT/Eyeriss、苹果、三星等。


    中科寒武纪


    寒武纪科技成立于 2016 年,总部在北京,创始人是中科院计算所的陈天石、陈云霁兄弟,公司致力于打造各类智能云服务器、智能终端以及智能机器人的核心处理器芯片。阿里巴巴创投、联想创投、国科投资、中科图灵、元禾原点、涌铧投资联合投资,为全球 AI芯片领域第一个独角兽初创公司。


    寒武纪是全球第一个成功流片并拥有成熟产品的 AI 芯片公司,拥有终端 AI 处理器 IP和云端高性能 AI 芯片两条产品线。 2016 年发布的寒武纪 1A 处理器(Cambricon-1A) 是世界首款商用深度学习专用处理器,面向智能手机、安防监控、无人机、可穿戴设备以及智能驾驶等各类终端设备,在运行主流智能算法时性能功耗比全面超越传统处理器。


    中星微


    1999 年, 由多位来自硅谷的博士企业家在北京中关村科技园区创建了中星微电子有限公司, 启动并承担了国家战略项目——“星光中国芯工程”,致力于数字多媒体芯片的开发、设计和产业化。


    2016 年初,中星微推出了全球首款集成了神经网络处理器(NPU)的 SVAC 视频编解码 SoC,使得智能分析结果可以与视频数据同时编码,形成结构化的视频码流。该技术被广泛应用于视频监控摄像头,开启了安防监控智能化的新时代。自主设计的嵌入式神经网络处理器(NPU)采用了“数据驱动并行计算” 架构,专门针对深度学习算法进行了优化,具备高性能、低功耗、高集成度、小尺寸等特点,特别适合物联网前端智能的需求。


    地平线机器人(Horizon Robotics)


    地平线机器人成立于 2015 年,总部在北京,创始人是前百度深度学习研究院负责人余凯。BPU(BrainProcessing Unit) 是地平线机器人自主设计研发的高效人工智能处理器架构IP,支持 ARM/GPU/FPGA/ASIC 实现,专注于自动驾驶、人脸图像辨识等专用领域。


     2017年,地平线发布基于高斯架构的嵌入式人工智能解决方案,将在智能驾驶、智能生活、公共安防三个领域进行应用,第一代 BPU芯片“盘古” 目前已进入流片阶段,预计在 2018年下半年推出,能支持 1080P 的高清图像输入,每秒钟处理 30 帧,检测跟踪数百个目标。地平线的第一代 BPU 采用 TSMC 的 40nm工艺,相对于传统 CPU/GPU, 能效可以提升 2~3 个数量级(100~1,000 倍左右)。


    深鉴科技


    深鉴科技成立于 2016 年,总部在北京。由清华大学与斯坦福大学的世界顶尖深度学习硬件研究者创立。深鉴科技于 2018 年 7 月被赛灵思收购。深鉴科技将其开发的基于 FPGA 的神经网络处理器称为 DPU。


    到目前为止,深鉴公开发布了两款 DPU:亚里士多德架构和笛卡尔架构,其中,亚里士多德架构是针对卷积神经网络 CNN 而设计;笛卡尔架构专为处理 DNN/RNN 网络而设计,可对经过结构压缩后的稀疏神经网络进行极致高效的硬件加速。相对于 Intel XeonCPU 与 Nvidia TitanX GPU,应用笛卡尔架构的处理器在计算速度上分别提高 189 倍与 13 倍,具有 24,000 倍与 3,000 倍的更高能效。


    灵汐科技


    灵汐科技于 2018 年 1 月在北京成立,联合创始人包括清华大学的世界顶尖类脑计算研究者。


    公司致力于新一代神经网络处理器(Tianjic) 开发, 特点在于既能够高效支撑现有流行的机器学习算法(包括 CNN, MLP, LSTM 等网络架构),也能够支撑更仿脑的、更具成长潜力的脉冲神经网络算法; 使芯片具有高计算力、高多任务并行度和较低功耗等优点。 软件工具链方面支持由 Caffe、 TensorFlow 等算法平台直接进行神经网络的映射编译,开发友善的用户交互界面。 Tianjic 可用于云端计算和终端应用场景,助力人工智能的落地和推广。


    启英泰伦


    启英泰伦于2015年 11月在成都成立,是一家语音识别芯片研发商。启英泰伦的 CI1006是基于 ASIC 架构的人工智能语音识别芯片,包含了脑神经网络处理硬件单元,能够完美支持 DNN 运算架构,进行高性能的数据并行计算,可极大的提高人工智能深度学习语音技术对大量数据的处理效率。


    百度


    百度 2017 年 8 月 Hot Chips 大会上发布了 XPU,这是一款 256 核、基于 FPGA 的云计算加速芯片。合作伙伴是赛思灵(Xilinx)。 XPU 采用新一代 AI 处理架构,拥有 GPU 的通用性和 FPGA 的高效率和低能耗,对百度的深度学习平台 PaddlePaddle 做了高度的优化和加速。据介绍, XPU 关注计算密集型、基于规则的多样化计算任务,希望提高效率和性能,并带来类似 CPU 的灵活性。


    华为

    640?wx_fmt=png

    麒麟 970 搭载的神经网络处理器 NPU 采用了寒武纪 IP,如图 12 所示。麒麟 970 采用了 TSMC 10nm 工艺制程,拥有 55 亿个晶体管,功耗相比上一代芯片降低 20%。 CPU 架构方面为 4 核 A73+4 核 A53 组成 8 核心,能耗同比上一代芯片得到 20%的提升; GPU 方面采用了 12 核 Mali G72 MP12GPU,在图形处理以及能效两项关键指标方面分别提升 20%和50%; NPU 采用 HiAI移动计算架构,在 FP16 下提供的运算性能可以达到 1.92 TFLOPs,相比四个 Cortex-A73 核心,处理同样的 AI 任务,有大约具备 50 倍能效和 25 倍性能优势。


    英伟达(Nvidia)


    英伟达创立于 1993 年,总部位于美国加利福尼亚州圣克拉拉市。 早在 1999 年, 英伟达发明了 GPU,重新定义了现代计算机图形技术,彻底改变了并行计算。深度学习对计算速度有非常苛刻的要求, 而英伟达的 GPU 芯片可以让大量处理器并行运算,速度比 CPU 快十倍甚至几十倍,因而成为绝大部分人工智能研究者和开发者的首选。自从 Google Brain 采用 1.6 万个 GPU 核训练 DNN 模型, 并在语音和图像识别等领域获得巨大成功以来, 英伟达已成为 AI 芯片市场中无可争议的领导者。


    AMD


    美国 AMD 半导体公司专门为计算机、 通信和消费电子行业设计和制造各种创新的微处理器(CPU、 GPU、 APU、 主板芯片组、 电视卡芯片等),以及提供闪存和低功率处理器解决方案, 公司成立于 1969 年。 AMD 致力为技术用户——从企业、 政府机构到个人消费者——提供基于标准的、 以客户为中心的解决方案。


    2017 年 12 月 Intel 和 AMD 宣布将联手推出一款结合英特尔处理器和 AMD 图形单元的笔记本电脑芯片。 目前 AMD 拥有针对 AI 和机器学习的高性能 Radeon Instinc 加速卡,开放式软件平台 ROCm 等。


    Google 


    Google 在 2016 年宣布独立开发一种名为 TPU 的全新的处理系统。 TPU 是专门为机器学习应用而设计的专用芯片。通过降低芯片的计算精度,减少实现每个计算操作所需晶体管数量的方式,让芯片的每秒运行的操作个数更高,这样经过精细调优的机器学习模型就能在芯片上运行得更快,进而更快地让用户得到更智能的结果。 


    在 2016 年 3 月打败了李世石和 2017 年 5 月打败了柯杰的阿尔法狗,就是采用了谷歌的 TPU 系列芯片。


    Google I/O-2018 开发者大会期间,正式发布了第三代人工智能学习专用处理器 TPU 3.0。TPU3.0 采用 8 位低精度计算以节省晶体管数量, 对精度影响很小但可以大幅节约功耗、加快速度,同时还有脉动阵列设计,优化矩阵乘法与卷积运算, 并使用更大的片上内存,减少对系统内存的依赖。 速度能加快到最高 100PFlops(每秒 1000 万亿次浮点计算)。


    高通


    在智能手机芯片市场占据绝对优势的高通公司,也在人工智能芯片方面积极布局。据高通提供的资料显示,其在人工智能方面已投资了 Clarifai 公司和中国“专注于物联网人工智能服务” 的云知声。而早在 2015 年 CES 上,高通就已推出了一款搭载骁龙 SoC 的飞行机器人——Snapdragon Cargo。


    高通认为在工业、农业的监测以及航拍对拍照、摄像以及视频新需求上,公司恰好可以发挥其在计算机视觉领域的能力。此外,高通的骁龙 820 芯片也被应用于 VR头盔中。事实上,高通已经在研发可以在本地完成深度学习的移动端设备芯片。


    Nervana Systems


    Nervana 创立于 2014 年, 公司推出的 The Nervana Engine 是一个为深度学习专门定制和优化的 ASIC 芯片。这个方案的实现得益于一项叫做 High Bandwidth Memory 的新型内存技术, 这项技术同时拥有高容量和高速度,提供 32GB 的片上储存和 8TB 每秒的内存访问速度。该公司目前提供一个人工智能服务“in the cloud” ,他们声称这是世界上最快的且目前已被金融服务机构、医疗保健提供者和政府机构所使用的服务。 他们的新型芯片将会保证 Nervana 云平台在未来的几年内仍保持最快的速度。


    Movidius(被 Intel 收购)


    2016 年 9 月, Intel 发表声明收购了 Movidius。 Movidius 专注于研发高性能视觉处理芯片。其最新一代的 Myriad2 视觉处理器主要由 SPARC 处理器作为主控制器,加上专门的DSP 处理器和硬件加速电路来处理专门的视觉和图像信号。这是一款以 DSP 架构为基础的视觉处理器,在视觉相关的应用领域有极高的能耗比,可以将视觉计算普及到几乎所有的嵌入式系统中。


    该芯片已被大量应用在 Google 3D 项目的 Tango 手机、大疆无人机、 FLIR 智能红外摄像机、海康深眸系列摄像机、华睿智能工业相机等产品中。


    IBM


    IBM 很早以前就发布过 watson,投入了很多的实际应用。除此之外,还启动了类脑芯片的研发, 即 TrueNorth。TrueNorth 是 IBM 参与 DARPA 的研究项目 SyNapse 的最新成果。


     SyNapse 全称是Systems of Neuromorphic Adaptive Plastic Scalable Electronics(自适应可塑可伸缩电子神经系统,而 SyNapse 正好是突触的意思),其终极目标是开发出打破冯·诺依曼体系结构的计算机体系结构。


    ARM


    ARM 推出全新芯片架构 DynamIQ,通过这项技术, AI 芯片的性能有望在未来三到五年内提升 50 倍。


    ARM的新CPU架构将会通过为不同部分配置软件的方式将多个处理核心集聚在一起,这其中包括一个专门为 AI 算法设计的处理器。芯片厂商将可以为新处理器配置最多 8 个核心。同时为了能让主流 AI 在自己的处理器上更好地运行, ARM 还将推出一系列软件库。


    CEVA


    CEVA 是专注于 DSP 的 IP 供应商,拥有众多的产品线。其中,图像和计算机视觉 DSP产品 CEVA-XM4是第一个支持深度学习的可编程 DSP,而其发布的新一代型号 CEVA-XM6,具有更优的性能、更强大的计算能力以及更低的能耗。CEVA 指出,智能手机、汽车、安全和商业应用,如无人机、自动化将是其业务开展的主要目标。


    MIT/Eyeriss


    Eyeriss 事实上是 MIT 的一个项目,还不是一个公司, 从长远来看,如果进展顺利,很可能孵化出一个新的公司。Eyeriss 是一个高效能的深度卷积神经网络(CNN)加速器硬件,该芯片内建 168 个核心,专门用来部署神经网路(neural network),效能为一般 GPU 的 10 倍。其技术关键在于最小化 GPU 核心和记忆体之间交换数据的频率(此运作过程通常会消耗大量的时间与能量):一般 GPU 内的核心通常共享单一记忆体,但 Eyeriss 的每个核心拥有属于自己的记忆体。


    目前, Eyeriss 主要定位在人脸识别和语音识别,可应用在智能手机、穿戴式设备、机器人、自动驾驶车与其他物联网应用装置上。


    苹果


    在 iPhone 8 和 iPhone X 的发布会上,苹果明确表示其中所使用的 A11 处理器集成了一个专用于机器学习的硬件——“神经网络引擎(Neural Engine) ”, 每秒运算次数最高可达6000 亿次。这块芯片将能够改进苹果设备在处理需要人工智能的任务时的表现,比如面部识别和语音识别等。


    三星


    2017 年,华为海思推出了麒麟 970 芯片,据知情人士透露,为了对标华为,三星已经研发了许多种类的人工智能芯片。 三星计划在未来三年内新上市的智能手机中都采用人工智能芯片,并且他们还将为人工智能设备建立新的组件业务。三星还投资了 Graphcore、深鉴科技等人工智能芯片企业。


    3、技术趋势

    640?wx_fmt=png

    目前主流 AI 芯片的核心主要是利用 MAC(Multiplier and Accumulation, 乘加计算) 加速阵列来实现对 CNN(卷积神经网络)中最主要的卷积运算的加速。这一代 AI 芯片主要有如下 3 个方面的问题。


    (1)深度学习计算所需数据量巨大,造成内存带宽成为整个系统的瓶颈,即所谓“memory wall” 问题。


    (2)与第一个问题相关, 内存大量访问和 MAC阵列的大量运算,造成 AI芯片整体功耗的增加。


    (3)深度学习对算力要求很高,要提升算力,最好的方法是做硬件加速,但是同时深度学习算法的发展也是日新月异,新的算法可能在已经固化的硬件加速器上无法得到很好的支持,即性能和灵活度之间的平衡问题。


    因此,可以预见下一代 AI 芯片将有如下的五个发展趋势。


    (1)更高效的大卷积解构/复用


    在标准 SIMD 的基础上, CNN 由于其特殊的复用机制,可以进一步减少总线上的数据通信。而复用这一概念,在超大型神经网络中就显得格外重要。 如何合理地分解、 映射这些超大卷积到有效的硬件上成为了一个值得研究的方向,


    (2)更低的 Inference 计算/存储位宽


    AI 芯片最大的演进方向之一可能就是神经网络参数/计算位宽的迅速减少——从 32 位浮点到 16 位浮点/定点、 8 位定点,甚至是 4 位定点。在理论计算领域, 2 位甚至 1 位参数位宽,都已经逐渐进入实践领域。


    (3)更多样的存储器定制设计


    当计算部件不再成为神经网络加速器的设计瓶颈时,如何减少存储器的访问延时将会成为下一个研究方向。通常,离计算越近的存储器速度越快,每字节的成本也越高,同时容量也越受限,因此新型的存储结构也将应运而生。


    (4)更稀疏的大规模向量实现


    神经网络虽然大,但是,实际上有很多以零为输入的情况, 此时稀疏计算可以高效的减少无用能效。来自哈佛大学的团队就该问题提出了优化的五级流水线结,在最后一级输出了触发信号。在 Activation层后对下一次计算的必要性进行预先判断,如果发现这是一个稀疏节点,则触发 SKIP 信号,避免乘法运算的功耗,以达到减少无用功耗的目的。


    (5)计算和存储一体化


    计算和存储一体化(process-in-memory)技术,其要点是通过使用新型非易失性存储(如 ReRAM)器件,在存储阵列里面加上神经网络计算功能,从而省去数据搬移操作,即实现了计算存储一体化的神经网络处理,在功耗性能方面可以获得显著提升。


    结尾:

    640?wx_fmt=png

    近几年,AI技术不断取得突破性进展。作为AI技术的重要物理基础,AI芯片拥有巨大的产业价值和战略地位。


    但从大趋势来看,目前尚处于AI芯片发展的初级阶段,无论是科研还是产业应用都有巨大的创新空间。


    现在不仅英伟达、谷歌等国际巨头相继推出新产品,国内百度、阿里等纷纷布局这一领域,也诞生了寒武纪等AI芯片创业公司。


    在CPU、GPU等传统芯片领域与国际相差较多的情况下,中国AI芯片被寄望能实现弯道超车。

    未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


    未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


      如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


    640?wx_fmt=jpeg

    展开全文
  • 艾瑞咨询出具的2019年AI芯片行业研究报告,涵盖AI芯片行业概述,AI芯片应用场景及市场需求,AI芯片行业产业链及商业模式、优秀的AI芯片企业等。
  • 人工智能AI芯片应用领域研究报告 照 参 公 信 号 微 附关联企业介绍 众 行业概况人工智能行业简介 人工智能 Artificial Intelligence 是指使用机器代替人类实现认知识别分析决策等功 能其本质是对人的意识与思维...
  • 人工智能芯片

    2018-07-04 18:17:44
    随着行业发展环境的趋好,人工智能芯片企业间的竞争将不断加剧,行业内企业间并购整合与资本运作将日趋频繁,优秀的人工智能芯片企业必须重视对行业市场的研究,特别是对企业发展环境和客户需求趋势变化的深入研究
  • AI 芯片设计是人工智能产业链的重要一环。自2017 年5 月以来,各AI 芯片厂商的新品竞相发布,经过一年多的发展,各环节分工逐渐明显。AI 芯片的应用场景不再局限于云端,部署于智能手机、安防摄像头、及自动驾驶汽车...
  • 时尚最全的AI芯片产业全景和深度研究报告
  • 人工智能芯片技术体系研究综述.pdf
  • 分析了人工智能芯片不同的技术路线,比较了不同路线的特点,研究人工智能芯片产业全球及我国的发展态势,分析了我国人工智能芯片发展面临的机遇与挑战,并对未来人工智能芯片技术发展趋势进行了展望。
  • 2021-2025年中国人工智能芯片行业逆势突围战略研究报告.pdf
  • 人工智能芯片植入人体应用及发展研究.pdf
  • 人工智能立夏将至的大趋势下,芯片市场蛋糕越做越大,足以让拥有不 同功能和定位的芯片和平共存,百花齐放。后摩尔定律时代,我们强调AI 芯片市场不是零和博弈。我们认为在3-5 年内深度学习对GPU 的需求是当 仁不...
  • 大家好,这里是林哲博客,林哲今天我们来聊一下人工智能芯片,目前全世界超过90%的数据都是在过去的两三年之内产生的,那么随着人工智能自动驾驶5g云计算等技术的不断发展,预计肯定会有更多的数据会被源源不断的...

    大家好,这里是林哲博客,林哲今天我们来聊一下人工智能芯片,目前全世界超过90%的数据都是在过去的两三年之内产生的,那么随着人工智能自动驾驶5g云计算等技术的不断发展,预计肯定会有更多的数据会被源源不断的产生,一直到2025年数据总量将会比现在增长超过10倍,在这些技术的发展中很大的一部分其实都是基于对大数据的研究和分析。

    正因为如此,有很多人形象的把数据比作是人工智能时代的石油,那么为了对海量的数据进行处理,基于传统CPU的计算结构已经不能满足我们的需求了,我们需要去寻找更强大的硬件和芯片,来更快更好的完成这些工作。此外我们也需要去寻找更好的方法,比如采用各种人工智能的模型和算法,来帮助我们对这些数据进行分析和处理,并且得到更有意义的结果,那么这两者结合起来就得到了各种各样的人工智能芯片。

    不久前我给微软的某个算法和搜索推荐团队做了一个小讲座,其实讲的就是这方面的内容,因为这个讲座其实面向的都是软件和算法工程师,所以讲座内容其实都是以定性分析为主,并没有涉及太多太过专业的芯片或者是硬件的技术,回头我也想是不是可以写一期文章,然后把这些内容也分享给大家,之后我就发了一个动态大意,就是问一下大家想不想看这方面的内容,没想到大家的反响还挺热烈的,还有很多同学给我留言,那么在这里首先很感谢大家对我的支持和反馈。

    那么在今天的内容里,我们就一起来聊一聊关于人工智能芯片的几个很有意思的事情。

    我主要想和大家分享这么几个内容,首先我会简单介绍一下这些话题的讨论范围,比如这里说的人工智能芯片究竟有哪些,然后我想和大家聊一聊在实际的工程和应用场景里,如何对人工智能加速芯片来进行一个比较和选择,以及各种不同的AI芯片的优点和缺点都有哪些,我会给大家介绍一个简单的思维框架,帮助大家理解和思考。

    那么关于这几种芯片具体的对比细节,我总结了一个思维导图,具体的获取方式,我在这篇文章的最后会告诉大家,那么在开始我们的讨论之前,我们首先需要明确一些讨论的前提,这对于我们后续的讨论其实非常的重要,这个东西在英文里头其实叫做context,但是在中文里我好像没有找到一个特别贴切的翻译,很多翻译成为上下文或者叫做范围,那么大家如果有什么好的翻译可以在弹幕里说一下,说白了其实就是我们在讨论任何问题的时候,都要签订一个讨论的范围,大家都在圈圈里头来进行讨论,这就好比拳击和格斗比赛一样,大家需要在擂台上进行比试,而不能跑到台下去打。

    那么同样的对于我们今天要讨论的人工智能芯片,其实他们也有很多不同的应用领域,比如我们可以把它分成服务器端和移动端两大类,也有很多人把这两类称作云端和终端。

    事实上在这两类应用中,人工智能芯片在设计要求上其实有着很大的区别,比如移动端其实更加注重AI芯片的低功耗低延时低成本,而不处在云端的AI芯片,可能会更加注意它的算力扩展能力,以及它对现有基础设施的兼容性等等。

    那么对于这两类人工智能芯片,我们其实很难对他们进行一个直接的比较,这就好比有一棵大树,它的树干负责支撑这棵树,并且负责运输营养物质,它的树叶其实负责光合作用并且产生营养物质,但是我们其实很难比较树干或者是树叶它们究竟谁更有用,所以我们今天就画一个圈圈把讨论的范围缩小。

    我们只来看一下部署在服务器端,也就是云端的人工智能芯片的相关问题,而这也就是我不久之前给微软分享的主要内容。

    我们再来画一个全权来明确一下文章里我们讨论哪些AI芯片,在这里我主要想对比4种比较常见的芯片种类,包括cpu gpu ac和fpja那么其他的一些比较相对小众一些的芯片,比如说类脑芯片或者是量子芯片等等,就不列入今天的讨论了。好了,我们现在明确了要讨论的领域和对象,也就是部署在云端的4种常见的芯片。接下来我们就讨论一下,通过什么样的方式来衡量和评价这些芯片的优缺点。

    那么在这里我就给大家介绍一个我们在工程实践中常用的几个重要的因素,首先就是前面提到的算力,也就是芯片的性能,这里的算力其实有很多的方面,它可以指芯片做浮点运算或者是定点数运算的时候,每秒的运算次数以及芯片的峰值性能或者是平均性能等等,但是我们要注意的是性能其实并不是衡量AA芯片好坏的唯一标准,事实上在很多场合它甚至不是最重要的标准,那么究竟还有哪些考虑的因素呢?

    在这个思维框架里有5个主要的衡量因素,除了性能之外还有灵活性、同构性、功耗和成本4点,其中灵活性指的是人工智能芯片对不同的场景的适应程度,也就是说芯片能不能用于各种不同的AI算法和应用。

    同步性这个词听起来好像有些晦涩,但是它实际指的就是当我们大量部署人工智能芯片的时候,我们能不能利用现有的软硬件基础设施架构,还是说我们要引入很多其他的东西才能让人工智能芯片工作。

    举个简单的例子,就好比我想给我的电脑外接一个显示器,但是如果显示器的接口是HDMI那么就可以直接和我的电脑相连,但是如果显示器的接口是VGA或者是DVI或者是0.3,那么我可能就需要买这样一个转接头,才能和我的电脑相连接,这样我们就说这个设备也就是显示器,对我现有系统的同构性不够好,那么成本和功耗其实就很好理解了,成本指的就是钱和时间,当然如果我们细抠的话,还有投入的人力和物力等等,还有包括没有选择其他AI芯片所带来的机会成本,但是归根到底其实都是钱和时间,成本其实包含两部分,第一部分就是芯片的研发成本,另一部分就是芯片的部署和运维成本。

    功耗就更好理解了,指的就是某种AI芯片对数据中心带来的额外的功耗负担。

    好了,我们现在知道了思维框架里的5个重要的元素,那么现在就可以对我们之前提到的4种芯片,也就是cpu gpu和fbja做1个定性的比较了。首先我们来看一下CPU它仍然是目前数据中心里的主要的计算单元,那么为了支持各种人工智能的应用,传统的CPU的架构和指令集也在不断的迭代和变化。

    比如英特尔的志强处理器就引入了所谓的DL boost,也就是深度学习加速技术来加速卷积,神经网络和深度神经网络的训练和推理性能。但是相比其他的三种芯片,CPU的AI性能其实还是有一定的差距。Cpu最大的优势就是它的灵活性和同构性,对于大部分的数据中心来说,它们其实都是围绕着CPU来进行设计和建设的,所以CPU在数据中心的部署运维扩展,包括生态系统其实都已经非常的成熟了,它的功耗和成本并不算太低,但是还是在可以接受的范围之内。

    接下来来看一下GPU,GPU有着大规模的并行架构,因此非常适合对于数据密集型的应用来进行计算和处理,比如深度学习的训练过程和CPU相比 GPU的性能会高几十倍甚至上千倍,因此业界很多公司其实都在使用GPU对各种的AI应用来进行加速,比如分析和处理图片、视频、音频等等。

    Gpu的另外一个主要优势就是它其实有一个非常成熟的编程框架,比如扩大这也是GPU在人工智能时代得到爆发的最主要原因之一,但是 GPU最大的问题其实就是它的功耗,比如英伟达的p100v100和a100的GPU的功耗都在250瓦到400瓦之间,对于ipj或者ac的几十瓦甚至几瓦的功耗而言,这个数字显得过于的惊人了。

    而对于神经网络的训练来说,它往往需要大量的GPU集群来提供充足的算力,这样一来一个机柜的功耗可能就会超过几十千瓦,这就需要数据中心为它修改供电和散热等结构,比如传统的数据中心大都依靠风冷来散热,但是如果要部署GPU就很可能要改成水冷散热。

    那么对于大多数数据中心来说,这都是一笔巨大的开销,伴随着高功耗,其实更大的问题就是高昂的电费开支。在之前的文章里我提到过,现代数据中心里超过40%的运维成本其实都是电费开支,所以对于GPU在数据中心里的大规模部署,我们通常考虑的是它所能带来的算力的优势,能否抵消它带来的额外的电费。

    下面我们再来看一下IC,也就是所谓的人工智能专用芯片,这里的典型代表就是谷歌阿尔法狗里使用的tpu他在阿尔法狗里替代了1000多个CPU和上百个GPU,在我们的衡量体系里,人工智能专用芯片的各项指标其实都非常的极端,比如它有着极高的性能和极低的功耗,和GPU相比,它的性能可能会高10倍,功耗会低100倍,但是研发这样的芯片其实有着极高的成本和风险,和软件开发不同,芯片的开发需要投入大量的人力和物力,开发周期往往长达数年,而且失败的风险极大,放眼全球,同时拥有雄厚的资金实力和技术储备来进行人工智能芯片开发的公司,其实大概用两只手就能数得出来,也就是说这种方法可能对于很多公司来说并没有实际的借鉴意义。

    此外 AI专用芯片的灵活度往往比较低,顾名思义包括谷歌TCL在内的人工智能专用芯片,通常是针对某些具体的应用来进行开发的,那么它可能不能适用于其他的应用场景,从使用成本的角度来看,如果我们要使用基于ac的方案,就需要我们的目标应用有足够大的使用量来分摊高昂的研发成本,同时这类应用应该要足够稳定,来避免核心的算法或者协议不断的变化,而这对于很多的AI应用来说是不现实的。

    值得一提的是,我国在人工智能专用芯片领域其实涌现出来了很多优秀的公司,比如含5g地平线,包括之前被赛林斯收购的深建科技等等,如果大家还知道哪些优秀的AI芯片出让公司,可以在评论区补充一下,关于这些公司的具体产品或者技术,在这些视频里就不再讨论了,如果我们以后有机会的话再好好聊一下。

    最后我们再来说一下fpta我个人认为fpa能够在这些性能指标中达到一个比较理想的平衡,在性能方面 apj可以实现定制化的硬件流水线,并且可以在硬件层面进行大规模的并行运算,而且有着很高的吞吐量。

    在之前的文章里提到过就是介绍的汽车和火车的例子,其实apj最主要的特点就是它的灵活性,它可以很好的应对,包括计算密集型和通信密集型在内的很多种应用。此外 IP也有着动态可编程和部分可编程的特点,也就是说IP也可以在同时处理多个应用,或者是在不同的时刻处理多个不同的应用,这其实和CPU比较类似,但是IP的性能其实要远超于CPU。

    在数据中心里 ipj通常是以加速卡的形式来配合现有的CPU来进行大规模的部署,IP的工号通常只有几十瓦,那么对于额外的供电或者是散热等环节没有特殊的需求,因此可以兼容现有的数据中心的基础设施架构。

    那么在衡量AI芯片的时候,我们也经常使用性能功耗比这一个指标,也就是说即使你的性能非常高,但是如果你的功耗也很高,那么你的性能功耗比就很低,这也就是ipj相比于GPU的优势所在。那么在开发成本方面,ipj的一次性成本其实要远低于ac这是因为ipa在制造出来之后,可以通过不断的编程来改变它上面的逻辑功能。而Isaac在流片之后,它的功能就确定了,如果你要改变它的功能,就需要再进行流片,而这个过程会非常的昂贵,这是为什么像包括深健科技在内的很多AI芯片初创公司都选择使用ipj作为实现的平台的主要原因。

    所以说相比于其他的硬件加速单元来说,ipa在性能、灵活度、同构性、成本和功耗5个方面取得了比较理想的平衡,这是为什么微软最终选择了ipj并在数据中心里进行大规模部署的主要原因。

    好了,最后我们总结一下这篇文章的主要内容,我们讨论了人工智能芯片的主要分类,比如按照使用场景分可以分为服务器端和终端两大类,我们介绍了4种可以用来执行人工智能应用的芯片,也就是cpu gpu ac和FDA我们还根据一个思维框架,从性能、灵活性、同构性、功耗、成本5个方面分别衡量了这4种芯片的优缺点。大家好,这里是林哲博客,林哲今天我们来聊一下人工智能芯片,目前全世界超过90%的数据都是在过去的两三年之内产生的,那么随着人工智能自动驾驶5g云计算等技术的不断发展,预计肯定会有更多的数据会被源源不断的产生,一直到2025年数据总量将会比现在增长超过10倍,在这些技术的发展中很大的一部分其实都是基于对大数据的研究和分析。

    正因为如此,有很多人形象的把数据比作是人工智能时代的石油,那么为了对海量的数据进行处理,基于传统CPU的计算结构已经不能满足我们的需求了,我们需要去寻找更强大的硬件和芯片,来更快更好的完成这些工作。此外我们也需要去寻找更好的方法,比如采用各种人工智能的模型和算法,来帮助我们对这些数据进行分析和处理,并且得到更有意义的结果,那么这两者结合起来就得到了各种各样的人工智能芯片。

    不久前我给微软的某个算法和搜索推荐团队做了一个小讲座,其实讲的就是这方面的内容,因为这个讲座其实面向的都是软件和算法工程师,所以讲座内容其实都是以定性分析为主,并没有涉及太多太过专业的芯片或者是硬件的技术,回头我也想是不是可以写一期文章,然后把这些内容也分享给大家,之后我就发了一个动态大意,就是问一下大家想不想看这方面的内容,没想到大家的反响还挺热烈的,还有很多同学给我留言,那么在这里首先很感谢大家对我的支持和反馈。

    那么在今天的内容里,我们就一起来聊一聊关于人工智能芯片的几个很有意思的事情。

    我主要想和大家分享这么几个内容,首先我会简单介绍一下这些话题的讨论范围,比如这里说的人工智能芯片究竟有哪些,然后我想和大家聊一聊在实际的工程和应用场景里,如何对人工智能加速芯片来进行一个比较和选择,以及各种不同的AI芯片的优点和缺点都有哪些,我会给大家介绍一个简单的思维框架,帮助大家理解和思考。

    那么关于这几种芯片具体的对比细节,我总结了一个思维导图,具体的获取方式,我在这篇文章的最后会告诉大家,那么在开始我们的讨论之前,我们首先需要明确一些讨论的前提,这对于我们后续的讨论其实非常的重要,这个东西在英文里头其实叫做context,但是在中文里我好像没有找到一个特别贴切的翻译,很多翻译成为上下文或者叫做范围,那么大家如果有什么好的翻译可以在弹幕里说一下,说白了其实就是我们在讨论任何问题的时候,都要签订一个讨论的范围,大家都在圈圈里头来进行讨论,这就好比拳击和格斗比赛一样,大家需要在擂台上进行比试,而不能跑到台下去打。

    那么同样的对于我们今天要讨论的人工智能芯片,其实他们也有很多不同的应用领域,比如我们可以把它分成服务器端和移动端两大类,也有很多人把这两类称作云端和终端。

    事实上在这两类应用中,人工智能芯片在设计要求上其实有着很大的区别,比如移动端其实更加注重AI芯片的低功耗低延时低成本,而不处在云端的AI芯片,可能会更加注意它的算力扩展能力,以及它对现有基础设施的兼容性等等。

    那么对于这两类人工智能芯片,我们其实很难对他们进行一个直接的比较,这就好比有一棵大树,它的树干负责支撑这棵树,并且负责运输营养物质,它的树叶其实负责光合作用并且产生营养物质,但是我们其实很难比较树干或者是树叶它们究竟谁更有用,所以我们今天就画一个圈圈把讨论的范围缩小。

    我们只来看一下部署在服务器端,也就是云端的人工智能芯片的相关问题,而这也就是我不久之前给微软分享的主要内容。

    我们再来画一个全权来明确一下文章里我们讨论哪些AI芯片,在这里我主要想对比4种比较常见的芯片种类,包括cpu gpu ac和fpja那么其他的一些比较相对小众一些的芯片,比如说类脑芯片或者是量子芯片等等,就不列入今天的讨论了。好了,我们现在明确了要讨论的领域和对象,也就是部署在云端的4种常见的芯片。接下来我们就讨论一下,通过什么样的方式来衡量和评价这些芯片的优缺点。

    那么在这里我就给大家介绍一个我们在工程实践中常用的几个重要的因素,首先就是前面提到的算力,也就是芯片的性能,这里的算力其实有很多的方面,它可以指芯片做浮点运算或者是定点数运算的时候,每秒的运算次数以及芯片的峰值性能或者是平均性能等等,但是我们要注意的是性能其实并不是衡量AA芯片好坏的唯一标准,事实上在很多场合它甚至不是最重要的标准,那么究竟还有哪些考虑的因素呢?

    在这个思维框架里有5个主要的衡量因素,除了性能之外还有灵活性、同构性、功耗和成本4点,其中灵活性指的是人工智能芯片对不同的场景的适应程度,也就是说芯片能不能用于各种不同的AI算法和应用。

    同步性这个词听起来好像有些晦涩,但是它实际指的就是当我们大量部署人工智能芯片的时候,我们能不能利用现有的软硬件基础设施架构,还是说我们要引入很多其他的东西才能让人工智能芯片工作。

    举个简单的例子,就好比我想给我的电脑外接一个显示器,但是如果显示器的接口是HDMI那么就可以直接和我的电脑相连,但是如果显示器的接口是VGA或者是DVI或者是0.3,那么我可能就需要买这样一个转接头,才能和我的电脑相连接,这样我们就说这个设备也就是显示器,对我现有系统的同构性不够好,那么成本和功耗其实就很好理解了,成本指的就是钱和时间,当然如果我们细抠的话,还有投入的人力和物力等等,还有包括没有选择其他AI芯片所带来的机会成本,但是归根到底其实都是钱和时间,成本其实包含两部分,第一部分就是芯片的研发成本,另一部分就是芯片的部署和运维成本。

    功耗就更好理解了,指的就是某种AI芯片对数据中心带来的额外的功耗负担。

    好了,我们现在知道了思维框架里的5个重要的元素,那么现在就可以对我们之前提到的4种芯片,也就是cpu gpu和fbja做1个定性的比较了。首先我们来看一下CPU它仍然是目前数据中心里的主要的计算单元,那么为了支持各种人工智能的应用,传统的CPU的架构和指令集也在不断的迭代和变化。

    比如英特尔的志强处理器就引入了所谓的DL boost,也就是深度学习加速技术来加速卷积,神经网络和深度神经网络的训练和推理性能。但是相比其他的三种芯片,CPU的AI性能其实还是有一定的差距。Cpu最大的优势就是它的灵活性和同构性,对于大部分的数据中心来说,它们其实都是围绕着CPU来进行设计和建设的,所以CPU在数据中心的部署运维扩展,包括生态系统其实都已经非常的成熟了,它的功耗和成本并不算太低,但是还是在可以接受的范围之内。

    接下来来看一下GPU,GPU有着大规模的并行架构,因此非常适合对于数据密集型的应用来进行计算和处理,比如深度学习的训练过程和CPU相比 GPU的性能会高几十倍甚至上千倍,因此业界很多公司其实都在使用GPU对各种的AI应用来进行加速,比如分析和处理图片、视频、音频等等。

    Gpu的另外一个主要优势就是它其实有一个非常成熟的编程框架,比如扩大这也是GPU在人工智能时代得到爆发的最主要原因之一,但是 GPU最大的问题其实就是它的功耗,比如英伟达的p100v100和a100的GPU的功耗都在250瓦到400瓦之间,对于ipj或者ac的几十瓦甚至几瓦的功耗而言,这个数字显得过于的惊人了。

    而对于神经网络的训练来说,它往往需要大量的GPU集群来提供充足的算力,这样一来一个机柜的功耗可能就会超过几十千瓦,这就需要数据中心为它修改供电和散热等结构,比如传统的数据中心大都依靠风冷来散热,但是如果要部署GPU就很可能要改成水冷散热。

    那么对于大多数数据中心来说,这都是一笔巨大的开销,伴随着高功耗,其实更大的问题就是高昂的电费开支。在之前的文章里我提到过,现代数据中心里超过40%的运维成本其实都是电费开支,所以对于GPU在数据中心里的大规模部署,我们通常考虑的是它所能带来的算力的优势,能否抵消它带来的额外的电费。

    下面我们再来看一下IC,也就是所谓的人工智能专用芯片,这里的典型代表就是谷歌阿尔法狗里使用的tpu他在阿尔法狗里替代了1000多个CPU和上百个GPU,在我们的衡量体系里,人工智能专用芯片的各项指标其实都非常的极端,比如它有着极高的性能和极低的功耗,和GPU相比,它的性能可能会高10倍,功耗会低100倍,但是研发这样的芯片其实有着极高的成本和风险,和软件开发不同,芯片的开发需要投入大量的人力和物力,开发周期往往长达数年,而且失败的风险极大,放眼全球,同时拥有雄厚的资金实力和技术储备来进行人工智能芯片开发的公司,其实大概用两只手就能数得出来,也就是说这种方法可能对于很多公司来说并没有实际的借鉴意义。

    此外 AI专用芯片的灵活度往往比较低,顾名思义包括谷歌TCL在内的人工智能专用芯片,通常是针对某些具体的应用来进行开发的,那么它可能不能适用于其他的应用场景,从使用成本的角度来看,如果我们要使用基于ac的方案,就需要我们的目标应用有足够大的使用量来分摊高昂的研发成本,同时这类应用应该要足够稳定,来避免核心的算法或者协议不断的变化,而这对于很多的AI应用来说是不现实的。

    值得一提的是,我国在人工智能专用芯片领域其实涌现出来了很多优秀的公司,比如含5g地平线,包括之前被赛林斯收购的深建科技等等,如果大家还知道哪些优秀的AI芯片出让公司,可以在评论区补充一下,关于这些公司的具体产品或者技术,在这些视频里就不再讨论了,如果我们以后有机会的话再好好聊一下。

    最后我们再来说一下fpta我个人认为fpa能够在这些性能指标中达到一个比较理想的平衡,在性能方面 apj可以实现定制化的硬件流水线,并且可以在硬件层面进行大规模的并行运算,而且有着很高的吞吐量。

    在之前的文章里提到过就是介绍的汽车和火车的例子,其实apj最主要的特点就是它的灵活性,它可以很好的应对,包括计算密集型和通信密集型在内的很多种应用。此外 IP也有着动态可编程和部分可编程的特点,也就是说IP也可以在同时处理多个应用,或者是在不同的时刻处理多个不同的应用,这其实和CPU比较类似,但是IP的性能其实要远超于CPU。

    在数据中心里 ipj通常是以加速卡的形式来配合现有的CPU来进行大规模的部署,IP的工号通常只有几十瓦,那么对于额外的供电或者是散热等环节没有特殊的需求,因此可以兼容现有的数据中心的基础设施架构。

    那么在衡量AI芯片的时候,我们也经常使用性能功耗比这一个指标,也就是说即使你的性能非常高,但是如果你的功耗也很高,那么你的性能功耗比就很低,这也就是ipj相比于GPU的优势所在。那么在开发成本方面,ipj的一次性成本其实要远低于ac这是因为ipa在制造出来之后,可以通过不断的编程来改变它上面的逻辑功能。而Isaac在流片之后,它的功能就确定了,如果你要改变它的功能,就需要再进行流片,而这个过程会非常的昂贵,这是为什么像包括深健科技在内的很多AI芯片初创公司都选择使用ipj作为实现的平台的主要原因。

    所以说相比于其他的硬件加速单元来说,ipa在性能、灵活度、同构性、成本和功耗5个方面取得了比较理想的平衡,这是为什么微软最终选择了ipj并在数据中心里进行大规模部署的主要原因。

    好了,最后我们总结一下这篇文章的主要内容,我们讨论了人工智能芯片的主要分类,比如按照使用场景分可以分为服务器端和终端两大类,我们介绍了4种可以用来执行人工智能应用的芯片,也就是cpu gpu ac和FDA我们还根据一个思维框架,从性能、灵活性、同构性、功耗、成本5个方面分别衡量了这4种芯片的优缺点。

    展开全文
  • 基于应用场景的人工智能芯片技术分类方法研究.pdf
  • 人工智能芯片大有可为,想了解2018年该领域研究和工程进展的不二选择
  • AI芯片行业研究报告

    2021-03-20 11:09:41
    AI芯片行业研究报告
  • 人工智能芯片技术进展及产业发展研究报告.pdf
  • 人工智能AI芯片应用领域研究报告.pdf
  • 基础架构,应用解决方案,云计算,大数据,数据中心,智慧IT,IT架构,人工智能相关的产品白皮书,技术方案,技术架构介绍,适合IT技术专业人士阅读参考
  • 2019年中国AI芯片行业研究报告.pdf

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 30,270
精华内容 12,108
关键字:

人工智能芯片研究