精华内容
下载资源
问答
  • Sebastian, A., Le Gallo, M., Khaddam-Aljameh, R. et al. Memory devices and applications for in-memory computing. Nature Nanotechnol. 15, 529–544 (2020)
  • 基于NOR FLASH的存算一体AI推理芯片.pdf
  • 文献调研——存算一体的一些基础知识

    千次阅读 多人点赞 2020-03-14 18:19:10
    Part 1 存算一体的相关概念 Part 2 SSD基本结构 一、Why 人工智能芯片: 边缘市场-终端推理手机,可穿戴智能家居 要求低成本低功耗 -推理芯片 云端市场-云端计算、云端推理 服务器 力大 不care成本和功耗-训练芯片...

    SSD课程背景知识学习
    主要包含:
    Part 1 存算一体的相关概念
    Part 2 SSD基本结构

    一、Why

    人工智能芯片:
    边缘市场-终端推理手机,可穿戴智能家居 要求低成本低功耗 -推理芯片
    云端市场-云端计算、云端推理 服务器 算力大 不care成本和功耗-训练芯片
    来自Ref3:
    (1)终端推理将是主要趋势:权重精度简化、不涉及训练的权重更新、终端推理任务一般较为固定
    (2)物联网将是主要应用场景
    (3)非挥发性存储器件是存内计算落地关键
    人工智能三大要素:
    算力-NVIDIA-GPU/Google-TPU(云端算力) 边缘终端?资源受限,高能效、低成本、长待机
    数据-互联网与5G
    算法-深度神经网络
    瓶颈:
    存储和运算之间的瓶颈,二者是分离的 缓存临时数据 存储调用
    神经网络参数:读取瓶颈
    数据缓存:读写瓶颈 存储器和处理器之间通路窄 ,存储器和处理器之间壁垒高(存储墙 功耗墙)
    降低数据搬运开销
    高带宽内存(HBM DRAM)
    高带宽数据通信
    提高存储器速度(RRAM PCM FeRAM)
    增加片上存储(eDRAM STI-MRAM)
    存算一体(近数据计算,存算一体)-见啥数据处理电路中移动数据的需求

    二.What

    存算一体:将计算机中的运算从中央处理器转入内存中进行,可大幅将死数据交换时间以及计算过程中的数据存取能耗。
    以计算为中心转变为以数据为中心,直接利用存储器进行数据处理
    技术路线分为片内存储和片外存储两大类。
    片外存储:基于数字芯片和存储器配合的存算一体技术,通过在存储器中植入计算芯片或逻辑计算单元来提高读写速度
    片内存储:数模混合的存算一体技术,通过在存储器嵌入算法权重,使存储器具备算法功能,实现真正意义上的将存储和计算完全结合在一起。
    相关概念:
    Computing-in-memory In-memory-Computing,Logic-in-Memory,In-Memory-Processing,Processing-in-Memory分别对应:内存处理、存内处理、内存计算、存算融合、存内计算、存算一体等
    Q:与“近存计算”的区别?
    为什么重点放在边缘端智能应用场景?
    (1)不可能吧所有运算都放在云端,考虑到实时产生的数据量、实际传输带宽、端侧设备的损耗-实时性的要求
    (2)同类设备产生的大部分数据有具有极高的相同模式化特征,借助终端的处理能力先过滤掉大部分无用数据
    (3)用户隐私/安全性的要求,人脸语音信息传至云端的安全性?

    三.How

    目前存算一体芯片的主要研发集中在传统非易失存储:SRAM,DRAM以及非易失存储:PRAM,PCM,MRAM与闪存等,比较成熟的是SRAM和MRAM为代表的通用近存计算架构。

    四.存算一体芯片的相关实现

    95%以上的运算为向量矩阵乘法(MAC),因此存算一体主要加速该部分运算。
    通常采用同构众核的架构,每个存储计算核(MPU)包含:计算引擎(PE,processing engine)、缓存(cache)、控制(CTRL)与输入输出(I/O)。其中缓存可以是SRAM、MRAM或类似的高速随机存储器,每个MPU之间同过片上网络(NoC,network on chip)进行连接,每个MPU访问自己的cache,可以实现高性能并行运算。
    1.SRAM二值存储器 = XNOR累计运算,可用于二值神经网络运算。核心思想:网络权重存储于SRAM中,激励信号由额外字线给出,最终利用外围电路实现XNOR累加运算。计算结果通过计数器或模拟电流输出。 难点:实现大阵列的运算同时保证运算精度
    2.DRAM存算一体:利用DRAM单元之间的电荷共享机制,党多行单元被选通时不同单元之间因为存储数据的不同会产生电荷交换共享,从而实现逻辑运算。这种方案的问题之一是计算操作对数据是破坏性的,每次执行运算后都要进行刷新带来的功耗问题;问题二依旧是实现大阵列运算的同时保证运算精度。
    3.PRAM/PCM/Flash多值存算一体 利用存储单元的多值特性,通过器件本证的物理电气行为来实现多值MAC运算。将每个存储单元看做可变电导/电阻用于存储网络权重。当在每一行施加电流/电压(激励)时每一列即可得到MAC运算的电压/电流值。
    由于Flash本身是非易失可直接存储网络权重,无需片外存储器,减小了芯片成本,而且数据掉电不丢,可以实现即时开机/关机操作,减少静态功耗延长待机时间,非常适用于功耗受限的边缘终端设备。基于Flash的存算一体相对成熟,收到业界广泛关注。
    如直接利用存储单元的输入输出进行逻辑运算,根据不同存储器逻辑单元的结构与操作方法的不同有不同的实现方式。
    存在的挑战
    1、技术层面:涉及器件-芯片-算法-应用多层次的跨层协同
    2、产业生态层面:需要得到芯片厂商、软件工具厂商、应用集成厂商的大力协同、研发、推广与应用才是落地的关键
    3、计算精度有限:浮栅存储器件并不适用于计算,且片内存储本质上使用模拟计算,计算精度会受到模拟计算低信噪比的影响,通常精度上线在8bit+定点运算。这一点就能看出不适合做DNN训练,只能适用于嵌入式等对高能效比有要求且对精确度有一定容忍
    4、关键技术:存算一体模拟信号误差、高效模拟/数字信号转换
    Why?

    五.固态硬盘科普(SSD)

    主控+Flash 控制芯片+Flash(闪存颗粒:4 SLC MLC TLC QLC每个单元分别存储1-4种数据)+缓存
    1.存储颗粒:
    SLC:每个存储单元只放1bit数据 查找速度快
    MLC:每个存储单元存放2bit数据
    TLC:每个存储单元存放3bit数据 寿命短(访问多)但价格便宜
    能自主生产内存颗粒的厂商:Intel Sumsung Mocron SK Hynix TOSHIBA SanDisk
    颗粒和固件影响了SSD的读写速度,SLC缓存也让TLC颗粒的固态硬盘能有不错的顺序读写速度
    4k 随机读写
    2.主控
    主控厂商:marwell马牌 三星Phoenix Intel| TOSHIBA SiliconMotion(慧荣)PHISON(群联)
    3.缓存:
    DDR/SLC-cache
    4.分类
    按接口:3种
    SATA:600Mb/s
    PCI-E :X1 X2(1000Mb/s) X4(1500Mb/s) X8(显卡) X16
    M.2:高性能M型接口-socket3接口1500Mb/s
    B-Ket插槽,socket2接口
    协议:NVME协议 (PCI-E-3000Mb/s M.2)
    传输方式:
    顺序读写:单个大文件
    随机读写:文件夹下多个小文件 4k IPOS值越大越好
    5.SSD厂商推荐
    三星 860EVO 970EVO SM961
    东芝 MLC:Q200 TLC:TR200
    浦科特:M9PeG 马牌主控+TLC
    Intel: 545s 760P
    建兴:T9 马牌主控 贵
    惠普: EX900 HP主控+美光颗粒
    闪迪:便宜但性能一般 升级老电脑可以
    尽量选择能自己生产闪存颗粒,TLC+缓存 可以接受的,容量越大越好寿命也越久,SATA接口不用考虑是否电脑型号支持,M.2许考虑;4K IPOS值记得参考
    0323补充SSD相关
    内存处理速度快但容量小,外存存储容量大但不能直接访问,必须先搬到内存,再搬到缓存,跨越计算机系统的存储层级结构。
    Processing in-memory内存处理器是将数据直接存放在内存,计算过程不需要在内存外存之间来回搬运数据,从而克服IO带宽限制,但内存容量相对于外存而言仍然较小。(存储靠近计算)
    ISC:存内计算将存储和计算放在一个系统里面,存储采用非易失 闪存Flash,每个处理器通过PCIe接口连接到NAND Flash(存储计算一体)
    面向计算的融合:将存储靠近计算
    面向存储的融合:将计算靠近存储,将一部分计算任务卸载(offloading)至靠近数据存储的位置,利用内部总线而非IO完成数据搬动。通常通过在存储器加入计算功能的部件实现。-SSD
    3D-STACKING以上两种在计算机体系结构层面实现融合,3D堆叠主要在器件封装层面以堆叠的方式实现异构封装。相关堆叠方案有:高带宽存储(High-Bandwidth memory)、混合存储立方体(Hybrid Memory Cube).多通过硅穿孔技术实现存储容量的倍增-解决存储墙
    what is OFF-Loading:对数据处理的部分操作下移至存储系统,在存储系统中增加通用或专用处理器/加速器,对需要存取的数据进行预处理,以降低从存储系统至内存的数据来回搬移,避免IO作为性能瓶颈。
    SSD靠近存储做计算的实现:嵌入低功耗处理器(ARM核)和内存资源(DRAM).NAND Flash,ARM,DRAM,控制器和内部总线整体构成一个事实上的计算机系统。
    SSD如何实现计算:
    (1)SSD接受主控CPU的计算需求,将数据从Flash搬运到SSD内部DRAM;
    (2)SSD内部处理器(ARM核)完成计算并将计算结果返回CPU。
    整个过程SSD不仅仅将SSD当做存储设备完成数据搬动;数据搬运利用的是内部高速总线,返回的计算结果数据量远远小于计算所需的数据量。
    以上延伸出智能SSD相关文献。smartSSD related works

    六.典型案例

    Related Works
    Graphcore【英】200-400Mb的SRAM缓存
    Gyrfalcon Technology[美] 40Mb嵌入式MRAM缓存
    International:
    NOR闪存存算一体芯片:Intel傲腾固态盘-片外存储-CPU和硬板之间的数据搬运
    Domestic:
    知存科技-片外存储-超低功耗语音识别存算一体
    新忆科技
    Research Institute:
    加州大学圣芭芭拉分校-谢源团队-阻变存储的存内计算
    清华-全球首款多阵列忆阻器存算一体系统,处理CNN时的能效比GPU高两个数量级。
    清华大学-刘永攀教授团队和汪玉教授团队-PRIME架构研发-150nm工艺流片
    清华+SK Hynix-智能存储计算芯片联合研究中心
    复旦大学-周鹏团队
    恒硕+中科大
    基于NOR闪存架构的存算一体AI芯片,利用NOR Flash的模拟特性,可直接在存储单元内进行全精度矩阵卷积运算(乘加运算),规避了数据在ALU和存储器之间来回传输的瓶颈,从而使功耗大幅降低、提高了运算效率。
    结构: Flash存储单元:存储神经网络权重参数+同时还可以完成和此权重相关的乘加法运算->乘加法+存储融合到了一个Flash 省去了DRAM、SRAM以及片上并行计算单元,简化系统设计

    知存科技-MemCore-单麦/双麦降噪-基于Flash的模拟存算一体
    Flash-(8bit权重存储 8*8bit模拟矩阵乘加运算) 单一Flash阵列可完成200万次矩阵乘法加法运算,吞吐率比DRAM/SRAM带宽高100-1000倍

    内存计算:通过将一个相关的电子元件编程成一个离散的阻值和状态,然后将这些具有不同权重的电子元件相互卷积,就可以建立一个近似突触和神经元的系统。

    文献阅读-Ref2:知存科技-端侧智能存算一体芯片概述
    1.存算一体-提出背景
    存储墙和功耗墙并称为冯诺依曼计算架构瓶颈
    智能大数据存储的挑战实质是由硬件设施的处理能力与所处理问题的数据规模之间的矛盾导致的。->need高效的硬件设施与计算架构
    单纯增加数据总线或带宽:增加功耗和硬件成本开销
    业界主流:高速接口、光互联、增加片上缓存、存储器尽可能靠近处理器以减小数据传输距离
    相关企业:Google,AMD,NVIDIA,寒武纪
    2.存算一体芯片主流研究方向
    (1)通用近存计算架构
    (2)SRAM存算一体
    (3)DRAM存算一体
    (4)多值存算一体(PRAM/PCM/Flash)
    (5)二值存算一体(PRAM/PCM/Flash)

    Ref3.存内计算技术发展趋势分析
    1.当前存内计算主要面临:硬件的资源复用、存内计算单元设计和模拟运算实现等挑战
    存内计算的硬件载体也逐渐从NOR Flash向新兴非挥发性存储器件方向转变
    2.根据逻辑单元和存储单元的关系,计算架构可分为:
    传统架构
    近存储计算架构->不改变逻辑、存储单元自身设计功能前提下,通过硬件布局和结构优化,增强二者之间的通信带宽从而提高计算效率
    存内计算架构-直接在存储单元内部进行运算,实现逻辑单元和存储单元的有机整合

    3.存内计算的工作模式:
    (1)计算结果与输入和存储状态均有关,结果直接输出->满足算法推理功能的基本实现
    (2)计算结果与输入和存储状态均有关,结果保存在存储单元内->实现权重跟新(训练)
    (3)计算结果和输入和存储状态均有关,结果输出并同时更新存储状态->更贴近真是的突触单元,目前还较为困难
    4.实现存内计算的挑战
    (1)硬件资源的复用。没有原冯诺依曼架构的多级存储模式,存内计算:存储单元分散在逻辑单元内、逻辑单元分散在存储单元内或二者有机结合->神经网络的层数设置增加了复用难度
    (2)存算一体化单元的设计问题。开销、可靠性都既要满足存储也要满足计算的要求
    (3)模拟量运算的实现。神经网络起码权重精度要求6bit(尤其是训练过程)->硬件实现上巨大的计算开销,寻求模拟量功能的趋势性估算既能简化算法又能够降低对硬件的性能要求;另一方面硬件上实现模拟量的可控调制和存储难度较高

    Ref4:基于NOR Flash的存算一体AI推理芯片
    合肥恒烁半导体+中科大->用于人脸识别、音频识别、心电检测
    未来应用场景:智能手机、可穿戴设备、无人机、智能摄像头、助听器等
    1、NOR Flash 存算一体AI芯片:Flash阵列的模拟计算来高度并行化完成矩阵计算。具体将权值映射到Flash阵列,然后将输入转哈为电压,输入到Flash阵列进行模拟计算,采集到的的输出电流即为计算结果。
    特点:
    (1)Flash单元即是存储单元又是计算单元 消除了神经网络权重部分的内存移动降低功耗
    (2)每个Flash相当于一个乘法器,矩阵运算时有几万个乘法累加并行进行,大大提高了吞吐量。

    Ref5.基于忆阻器的感存算一体技术研究进展
    1、忆阻器:阻值由激励决定且连续变化,集成密度高、操作速度快、操作功耗低、非易失。常采用交叉阵列,在阵列一端施加列电压矢量时另一端的输出行电流是施加列电压矢量与忆阻器电导矩阵的乘积。->基于欧姆定律和基尔霍夫电压定理,忆阻器阵列能够在一个周期内完成矢量和矩阵的乘累加运算,乘法的因子直接存储在忆阻器阵列中,不需要单独的存储单元,从而绕过了冯诺依曼瓶颈。
    2、模拟式存算一体:欧姆定律和基尔霍夫电压定律一步实现乘累加。
    相关研究:STDP规则完成脉冲神经网络的训练、搭建单层感知机系统
    现存问题:目前只能海鲜简单数据的线性分类,与复杂多变的现实应用需求有较大差距;大规模忆阻器阵列的外围测试电路过于复杂;忆阻器状态有一定波动性-信息安全领域的应用
    数字式存算一体:忆阻器完成布尔逻辑运算、加法、乘法
    类型:V-V型(好级联)、R-R型(容易级联、配置)、V-R型(不好级联)
    现存问题:植被的器件尺寸大、功耗高、单次运算优势与CMOS并不明显
    3、忆阻器存算一体存在的问题
    (1)忆阻器器件可靠性距应用还相差较远,器件参数一致性受材料工艺制约
    (2)大规模忆阻器阵列:阵列纸杯工艺和串扰(旁路电流通道对目标器件读写操作的干扰)
    (3)数字式存算一体有一定进展但 其实际处理能力目前还未有科研成果现实

    4、感存算一体技术
    感存算一体技术:集感知、存储和运算为一体的架构。传感器采集到的的模拟信号直接送到忆阻器处理单元进行运算,无需ADC的采样量化存储
    主要有:
    压力感存算一体->阻变压力传感器+阻变存储器=触觉记忆单元 问题:柔性衬底、集成度
    光学感存算一体->光探测器+阻变存储器/光阻器件 问题:视觉信息临时存储、实时处理、光电子突触型器件
    气体感存算一体->气体探测器+存储器
    5、感存算一体技术的发展思考
    大规模集成:考虑多感知融合、多元化处理功能
    器件性能可靠性:器件分立,需发展维纳传感器的高密度三维集成工艺
    外围控制电路架构:起步阶段
    Ref6.基于忆阻器的非易失逻辑研究前沿
    Ref7.基于新兴忆阻器的存内计算
    1、忆阻器:高低电阻两个状态可表示逻辑1/0;不同电阻状态之间可逆翻转、状态需满足一定条件才发生翻转
    2、忆阻器逻辑
    Stateful:R-R 方便集成,具有很高的逻辑完备性、易于逻辑级联;但对器件参数一致性要求高
    Non-stateful:R-V/V-V 无需额外的操作电压,便于集成在交叉阵列中;但不利于级联,输出输出状态不一致
    存在的问题:器件状态飘逸、阵列排列方式影响逻辑运算性能、泄露路径、
    3、忆阻器分类
    磁效应忆阻器:不同层电子自旋方向->相对磁化方向->阻值变化
    相变效应忆阻器:电压->可编程区的晶态(多晶、非晶)->阻态变化
    阻变效应忆阻器:上下金属电极+中间阻变绝缘体层,有单双极性两类->电压极性
    Ref8:一种基于斯格明子介质的高效存内计算框架
    赛道型内存:RM,racetrack memory密度大、非易失、静态功耗低
    斯格明子赛道内存:Skyrmion-based racetrack memory逻辑单元构成加法/乘法器,无需大量CMOS电路辅助;另一方面改进存储单元读写端口数目与系统级改进内存地址映射方式,大幅提高框架运行效率
    看不懂了。。。

    Question
    目前问题:近存计算和存算一体的区别? 为什么会设计模拟量运算的难题?

    展开全文
  • 阿里2020年的十大科技趋势里提到计算存储一体化,希望通过存算一体的架构,突破AI力瓶颈。存算一体的理念也是受大脑计算方式启发的。 基于忆阻器的存算一体技术可以分为三个阶段:第一个阶段是单个器件的发展阶段...

    2020-05-06 22:10:35

    人工智能的另一方向:基于忆阻器的存算一体技术

    者 | 刘千惠、邢东

    编辑 | 蒋宝尚

    过去的十年以深度神经网络为代表的人工智能技术深刻影响了人类社会。但深度神经网络的发展已经进入瓶颈期,我们仍处于弱人工智能时代。如何更近一步,跨入强人工智能,敲击着每一位智能研究者的心。

    算法提升,则是走向强人工智能的一个方向;而受脑启发的硬件设计,则是人工智能的另一方向。

    在硬件层面上,智能研究如何从对人脑的研究中受益?随着我国在类脑计算方面的深入,已有越来越多的学者开始拷问这一问题。

    2020年4月25日,在未来论坛青创联盟线上学术研讨中,开展了AI+脑科学的主题讨论,共有六位嘉宾发表演讲,从Brain Science for AI和AI for Brain Science两个不同的视角进行前沿讨论。

    其中来自清华大学的吴华强老师做了题目为“大脑启发的存算一体技术”的报告。在报告中吴教授介绍到:当思考未来计算的时候,量子计算、光计算是向物理找答案,类脑计算、存算一体是向生物找答案,也就是向大脑找答案。

    目前吴老师正在芯片上做电子突触新器件,做存算一体的架构。新器件方面主要研究的是忆阻器,它的特点是可以多比特,同时非易失,即把电去掉可以保持阻值,并且它速度很快。

    另外,吴老师还提到,其用存算一体的计算结构设计的芯片与树莓派28纳米的CPU做过对比,在准确率相当的情况下,前者运行一万张图片是3秒,后者是59秒。

    人工智能的另一方向:基于忆阻器的存算一体技术

    吴华强, 清华大学微纳电子系教授,清华大学微纳电子系副系主任,清华大学微纳加工平台主任,北京市未来芯片技术高精尖创新中心副主任。

    吴华强:

    我的报告将从硬件的挑战,研究进展以及展望三方面来介绍大脑启发的存算一体技术。

    人工智能无处不在,从云端到我们手机端都有很多人工智能。不同的人工智能应用对芯片的需求是不一样的,比如数据中心、汽车无人驾驶要求算力特别高,而智能传感网、物联网和手机希望耗能低,追求高能效。不同应用对芯片的不同需求给了芯片领域很多机会。

    人工智能的另一方向:基于忆阻器的存算一体技术

    人工智能的三个发展浪潮和硬件算力也有关系。从第一款神经网络Perceptron 网络AI开始火起来,到70年代进入低谷,一个非常重要的因素是,虽然有很好的理论模型,但是没有足够的算力。后来专家系统出现,第二波浪潮又起来。这时候很多人做专门围绕人工智能的计算机。同时代摩尔定律快速推动芯片的发展,通用计算机的性能飞速上扬,专业计算机能做的通用计算机也能做,因此逐渐占据市场,第二波浪潮又下去。第三波浪潮,深度神经网络的提出到利用GPU加速网络训练,GPU成为AI的主要训练平台。有了更大的算力,网络规模快速提升。AlphaGo Zero需要5000个TPU训练40天才成为地表最强的围棋选手,花费的时间还是很大的,因此人工智能的广泛应用需要硬件能力革新,支撑人工智能的发展。

     

     

     

     

    芯片能提供的算力和人工智能的高需求是很矛盾的。第一台计算机ENIAC出现在1947年,算力是每秒钟5000次左右。英特尔2019年的CPU大约是20.8GFLOPS。我们看到它的变化是围绕着摩尔定律,即每18个月翻一番的集成度来提升算力。但是目前AI的需求是每3.4个月翻一番。因此需要寻找新方法提供算力。

    人工智能的另一方向:基于忆阻器的存算一体技术

    算力提升越来越困难有两个原因,一是过去摩尔定律是把器件做的越来越小,现在器件尺寸缩小已经接近物理极限了,所以摩尔定律逐渐失效。二是传统计算架构发展带来的性能提升日趋缓慢。现代计算系统普遍采用信息存储和运算分离的冯诺依曼架构,其运算性能受到数据存储速度和传输速度的限制。具体来说,CPU的计算速度小于1纳秒,但是主存DRAM是百纳秒左右,也就是存储的速度远远低于计算速度。

    在能耗上,以TSMC45纳米的工艺为例,加减乘小于一个pJ,但是32位DRAM的读要高达640个pJ,这一比也是百倍的差距。因此存储速度远远低于CPU的速度,而存储的功耗也远远高于CPU的功耗。这还没有讲存储的写,写的功耗会更高。这样整个系统的性能受到数据存储速度和传输速度的限制,能耗也因为存储读的功耗和写的功耗很大,导致整个系统功耗都很大。

     

    人工智能的另一方向:基于忆阻器的存算一体技术

     

    现在可以看到很多新的计算出来了,量子计算、光计算、类脑计算、存算一体。所以当我们要思考未来的计算时,我自己觉得量子计算、光计算是向物理找答案,类脑计算、存算一体是向生物找答案,也就是向大脑找答案。

    著名的人机大战,人工智能选手 AlphaGo用了176个GPU、1202个CPU,功耗是150000W。而我们大脑体积大概1.2L,有10^11个神经元,10^15个突触,思考的时候功耗是20W。大脑的功耗这么少,这么聪明,这里面还有这么大容量的神经元、突触。所以我们希望用脑启发设计新的人工智能芯片。

    我们想通过向生物学家学习、向神经学家学习,来看看大脑是如何处理计算的。大脑有几个特点,一个是有大量的神经元连接性,以及神经元加突触的结构,一个神经元将近连接了1万个突触。第二个它的时空信息的编码方式是用脉冲的方式。我们希望模仿大脑的结构和工作机制,用脉冲编码的形式来输入输出。

     

     

    生物突触是信息存储也是信息处理的最底层的生物器件。我们想在芯片上做电子突触新器件,做存算一体的架构。新器件方面我们主要研究的是忆阻器,它的特点是可以多比特,同时非易失,即把电去掉以后可以保持这个阻值,并且它速度很快。还有很关键的一点,它和集成电路的CMOS工艺是兼容的,可以做大规模集成。近十年我们一直围绕这个器件来做其优化和计算功能。

    美国DARPA的FRANC项目提出用模拟信号处理方式来超越传统的冯·诺依曼计算架构,希望带来计算性能系统的增加。任正非在2019年接受采访时说,未来在边缘计算不是把CPU做到存储器里,就是把存储器做到CPU里,这就改变了冯·诺依曼结构,存储计算合而为一,速度快。阿里2020年的十大科技趋势里提到计算存储一体化,希望通过存算一体的架构,突破AI算力瓶颈。存算一体的理念也是受大脑计算方式启发的。

    人工智能的另一方向:基于忆阻器的存算一体技术

    基于忆阻器的存算一体技术可以分为三个阶段:第一个阶段是单个器件的发展阶段。2008年惠普实验室的Stan William教授首次在实验室制备了忆阻器,之后美国密西根大学的卢伟教授提出了电子突触概念,美国UCSB大学的谢源教授提出了基于忆阻器的PRIME存算一体架构,引起广泛关注。

    人工智能的另一方向:基于忆阻器的存算一体技术

    第二个阶段开始做阵列,2015年UCSB在12×12的阵列上演示了三个字母的识别,我们团队2017年在128×8的阵列上演示了三个人脸的识别,准确率能够大于95%,同时期还有IBM,UMass和HP等研究团队实验实现了在阵列上的存算一体。

     

    第三个阶段是存算一体芯片,我们以芯片设计领域的顶会ISSCC上近几年发表的文章为例,2018年松下展示了多层感知机的宏电路,2019年台湾地区新竹清华大学和台积电联合演示了卷积核计算的宏电路,今年清华和斯坦福合作做的限制玻耳兹曼机宏电路。

     

    也是今年我们清华团队完成的一个全系统集成的完整的存算一体芯片,从系统测试结果来看,这个芯片能效高达78.4TOPs/W,是相当高的。我们还做了一个对比,一个是存算一体的芯片和系统,一个是用了树莓派28纳米的CPU。我们的芯片跑完一万张图片是3秒,而他们是59秒,我们的速度要快很多,准确率却相当。

    今年1月我们在Nature上发表了一个忆阻器存算一体系统的工作。这个工作主要是把多个阵列放在一起组成一个系统,并验证是否能用作模拟计算来实现AI的工作。我们提出新型混合训练算法,实现了与软件相当的计算精度。还提出了新型卷积空间并行架构,成倍提升了系统处理速度。

    为什么忆阻器存算一体适合人工智能呢?因为交叉阵列结构特别适合快速矩阵向量乘法。存算一体可以减少权重搬移带来的功耗和延时,有效地解决目前算力的瓶颈。另外,人工智能更关注系统准确性,而不是每个器件的精度,这特别符合忆阻器和模拟计算的特点。

    我们还和毕国强老师合作了一篇综述文章。利用脑启发来设计人工智能芯片,我们把大脑从I/O通道,到突触,神经元,到神经环路,到整个大脑的结构,都和电子器件做了对比。文章题目叫《Bridging Biological and Artificial Neural Networks》,发表在2019年的Advanced Materials上面,如果大家感兴趣可以读这个文章。

    展望未来,希望能够做一个存算一体的计算机系统。以前是晶体管加布尔逻辑加冯·诺依曼架构,现在是模拟型忆阻器加模拟计算和存算一体的非冯架构。

    OMT:脑科学是如何助力AI的

    在演讲报告之后,来自中国科学技术大学神经生物学与生物物理学系系主任毕国强老师,来自北京大学信息科学技术学院长聘教授吴思老师和三位报告演讲老师就脑科学已经为AI发展提供了什么思想、方法和技术?有哪些典型案例?做了激烈的讨论。

    在会上胡晓林提到:有很多工作其实是从脑科学启发过来,追根溯源到1943年,麦克和皮茨这两个人第一次提出人工神经元MP神经元,如果没有他们提出人工神经元,后面的这些CNN等等都是不存在的,他们其实是做神经科学的,他们尝试发明计算模型并解释大脑的工作,他们提出了这种逻辑运算的MP神经元。后来Rosenbaltt把MP神经元扩展了一下,得到了多层感知机。后来在1989年、1990年的时候Yan LeCun等人提出来CNN,当时是受了Neocognitron模型的启发,Neocognitron是日本人Fukushima提出来的,我真的找过他那篇论文,Neocognitron的结构和现在CNN的结构一模一样,唯一区别是学习方法不一样,Neocognitron在1980年提出来时还没有BP算法。Neocognitron怎么来的呢?它是受到一个神经科学的发现,在猫的视觉皮层有简单细胞、复杂细胞两种细胞,从这两种细胞的特点出发构建了Neocognitron尝试去解释大脑怎么识别物体的。后来才发展到CNN。MP神经元和Neocognitron这是两个具有里程碑意义的方法,这是很典型的神经科学给我们AI的启发的工作,甚至可以说是颠覆性的工作。

    坦白说到这次神经网络、人工智能的腾飞,这次腾飞期间我并没有看到特别多令人非常兴奋的脑启发的工作,我本人也做了一些这方面的工作,发现目前一些受脑科学启发的计算模型好像都没有我刚才说的那两个模型的意义那么大。希望这个领域能出现一些新的脑启发的方法,哪怕它们现在的性能非常差,但是十几年、几十年以后,它们也许会成为奠基性的工作。

    吴思:我们要看我们怎么定义AI。如果泛泛的包括信息理论、动力学系统分析、统计学习等,那么这些都是计算神经科学每天在用的工具,它们一直在助力脑科学的发展。如果一定要强调最新的,比如说深度学习,那么如何将AI用于脑科学是目前的一个研究热点。国际上有多个组,也包括清华的胡晓林老师,大家把视觉系统当成一个深度学习网络,然后训练这个深度学习网络,同时加入一些生物学的约束,然后用对比的方法看这个系统能学习到什么,进而回答生物视觉认知的问题。

    唐华锦:我补充一下吴思老师讲的,在传统上AI提供了很重要的大数据分析工具,视觉神经、视觉皮层,现在的AI提供了很重要的大数据工具,尤其是在高通量的脑成像方面,建立非常精细的脑模型,AI大数据起到重要的作用。还有实时的脑活动的分析上,比如斑马鱼的活动,如何同时实时记录以及把这些神经元的活动匹配到那些神经元上,这是大量AI深度学习帮助脑科学家在分析数据、统计数据上,包括三维重建,包括树突、轴突之间连接的结构也会起到非常重要的作用,AI还是提供了很好的工具在深入的解释上面。

    展开全文
  • 构、数据库软件等)的称呼也不统一,相应的中文翻 译也不尽相同 ,例如内存处理 、内处理 、内存计算 、 存算融合 、内计算 、存算一体等。此外 ,在广义上 , 近计算也被归纳为存算一体的技术路径之一 。   ...


    作者 | 郭昕婕、王绍迪

    来源 | 《微纳电子与智能制造》期刊

    摘 要:现代电子设备朝着智能化、轻量化 、便携化快速发展 ,但是智能大数据处理挑战与冯 · 诺依曼计算架构瓶颈成为 当前电子信息领域的关键矛盾之一;同时,器件尺寸微缩(摩尔定律失效)带来的功耗与可靠性问题进一步加剧了该矛盾 的快速恶化。近年来以数据为中心的新型计算架构 ,例如存算一体芯片技术 ,受到人们的广泛关注 ,尤其在端侧智能场景。但是 ,基于端侧设备在资源 、时延、成本、功耗等诸多因素的考虑 ,业界对存算一体芯片提出了苛刻的要求。因此, 存算一体介质与计算范式尤为重要。同时,器件—芯片—算法—应用跨层协同对存算一体芯片的产业化应用与生态构建非常关键。概述了端侧智能存算一体芯片的需求 、现状 、主流方向 、应用前景与挑战等。

    引言

    自第四次信息革命以来 ,现代电子设备朝着智 能化 、轻量化 、便携化快速发展。尤其近年来 ,随着 以深度学习神经网络为代表的人工智能算法的深入 研究与普及 ,智能电子设备与相关应用场景已随处 可见 ,例如人脸识别 、语音识别 、智能家居 、安防监 控 、无人驾驶等。同时 ,随着 5G 通信与物联网 (internet of things,IoT)技术的成熟,可以预见,智能 万物互联(artificial intelligent internet of things,AIoT) 时代即将来临。

    如图 1 所示 ,在未来 AIoT 场景中 ,设备 将 主 要 分 为 3 类 :云 端 、边 缘 端 与 终 端 [ 1 ] ,其 中 边 缘 终端设备将呈现爆发式增长。众所周知 ,人工智能 的 3 大要素是算力 、数据与算法。互联网与 5G 通信 的应用普及解决了大数据问题 ,深度学习神经网络 的快速发展解决了算法问题 ,英伟达 GPU/谷歌 TPU 等高性能硬件的大规模产业化解决了云端算力问 题。但是 ,资源受限的边缘终端设备的算力问题目 前仍然是缺失的一环 ,且因其对时延 、功耗 、成本 、安 全 性 等 特 殊 要 求( 尤 其 考 虑 细 分 场 景 的 特 殊 需 求 ),将 成为 AIoT 大规模产业化应用的核心关键。因此 ,在 通往 AIoT 的道路上 ,需要解决的核心挑战是高能效、低成本和长待机的端侧智能芯片 。     

           

    冯·诺依曼计算架构瓶颈与大数据智能处理挑战

         

    随着大数据、物联网、人工智能等应用的快速兴 起 ,数据以爆发式的速度快速增长。相关研究报告 指出 ,全世界每天产生的数据量约为 2.5 × 1018 字节,且该体量仍然以每 40 个月翻倍的速度在持续增 长[2]。海量数据的高效存储、迁移与处理成为当前电 子信息领域的重大挑战之一。但是 ,受限于经典的 冯 · 诺依曼计算架构[3-4] ,数据存储与处理是分离的 , 存储器与处理器之间通过数据总线进行数据传输, 如图 2(a)所示。在面向大数据分析等应用场景中 , 这种计算架构已成为高性能低功耗计算系统的主要瓶颈之一。一方面 ,数据总线的有限带宽严重制约 了处理器的性能与效率 ,同时 ,存储器与处理器之间 存在严重性能不匹配问题 ,如图 2(b)所示。

    不管处理器运行的多快 、性能多好 ,数据依然存储在存储器 里 ,每次执行运算时 ,需要把数据从存储器经过数据 总线搬移到处理器当中 ,数据处理完之后再搬回到 存储器当中。这就好比一个沙漏 ,沙漏两端分别代 表存储器和处理器 ,沙子代表数据 ,连接沙漏两端的 狭窄通道代表数据总线。因此 ,存储器的带宽在很 大程度上限制了处理器的性能发挥 ,这称为存储墙 挑战。

    与此同时 ,摩尔定律正逐渐失效 ,依靠器件尺 寸微缩来继续提高芯片性能的技术路径在功耗与可 靠性方面都面临巨大挑战。因此 ,传统冯 · 诺依曼计算架构难以满足智能大数据应用场景快 、准 、智的响 应需求。另一方面 ,数据在存储器与处理器之间的 频繁迁移带来严重的传输功耗问题 ,称为功耗墙挑 战。英伟达的研究报告指出 ,数据迁移所需的功耗 甚至远大于实际数据处理的功耗。例如 ,相关研究 报告指出 ,在 22 nm 工艺节点下 ,1 bit 浮点运算所需 要的数据传输功耗是数据处理功耗的约 200 倍[5] 。在电子信息领域 ,存储墙与功耗墙问题并称为冯 · 诺 依曼计算架构瓶颈。

    因此 ,智能大数据处理的挑战 实质是由硬件设施的处理能力与所处理问题的数据 规模之间的矛盾引起的。构建高效的硬件设施与计 算架构 ,尤其是在资源受限的 AIoT 边缘终端设备 , 来应对智能大数据应用背景下的冯 · 诺依曼计算架 构瓶颈具有重要的科学意义与应用前景 。

     

    为了打破冯 · 诺依曼计算架构瓶颈 ,降低数据搬 移带来的开销 ,一种最直接的做法是增加数据总线 带宽或者时钟频率 ,但必将带来更大的功耗与硬件 成本开销,且其扩展性也严重受限。目前业界采用 的主流方案是通过高速接口 、光互联 、3D 堆叠 、增加片上缓存等方式来实现高速高带宽数据通信 ,同时使存储器尽量靠近处理器,减小数据传输的距离。光互联技术还处于研发中试阶段,而3D堆叠技术与增加片上缓存等方法已经广泛用于实际产品当中。

    国内外很多高校与企业都在研发与应用这种技术,如谷歌、英特尔、AMD、英伟达、寒武纪科技等。例如,利用3D堆叠技术,在处理器芯片上集成大容量内存 ,可以把数据带宽从几十 GB/s 提升到几百 GB/s;基 于 3D 堆叠 DRAM 技术 ,IBM 于 2015 年发布了一款面 向百亿亿次超级计算系统[6] ;英国 Graphcore 公司在芯 片产品上集成了 200~400MB 的片上缓存 ,来提高性能。

    值得注意的是,上述方案不可避免地会带来功耗 与成本开销 ,难以应用于边缘终端能耗与成本均受限 的 AIoT 设备 ,且其并没有改变数据存储与数据处理分离的问题,因此只能在一定程度上缓解,但是并不能从根本上解决冯·诺依曼计算架构瓶颈。

       

    存算一体基本原理与国内外发展现状   

    存算一体芯片技术,旨在把传统以计算为中心的架构转变为以数据为中心的架构,其直接利用存储器进行数据处理 ,从而把数据存储与计算融合在 同一个芯片当中 ,可以彻底消除冯 · 诺依曼计算架构 瓶颈,特别适用于深度学习神经网络这种大数据量 大规模并行的应用场景。需要说明的是 ,目前在学 术界和产业界有不少类似的英文概念,例如 Computing-in-Memory、In-Memory-Computing、Logic- in- Memory 、In- Memory- Processing 、Processing- in- Memory等,而且不同研究领域(器件、电路、体系架 构、数据库软件等)的称呼也不统一,相应的中文翻 译也不尽相同 ,例如内存处理 、存内处理 、内存计算 、 存算融合 、存内计算 、存算一体等。此外 ,在广义上 , 近存计算也被归纳为存算一体的技术路径之一 。

         

    存算一体的基本概念最早可以追溯到 20 世纪 70 年代,斯坦福研究所的Kautz等[7-8]最早于1969年就 提出了存算一体计算机的概念。后续相当多的研究 工作在芯片电路 、计算架构 、操作系统 、系统应用等 层面展开。例如 ,加州大学伯克利分校的 Patterson 等[9]成功把处理器集成在DRAM内存芯片当中,实现 一种智能存算一体计算架构。但是受限于芯片设计 复杂度与制造成本问题,以及缺少杀手级大数据应 用进行驱动 ,早期的存算一体仅仅停留在研究阶段, 并未得到实际应用。

    近年来 ,随着数据量不断增大 以及内存芯片技术的提高,存算一体的概念重新得 到人们的关注 ,并开始应用于商业级 DRAM 主存当 中。尤其在 2015 年左右 ,随着物联网 、人工智能等大 数据应用的兴起 ,存算一体技术得到国内外学术界 与产业界的广泛研究与应用。在 2017 年微处理器顶 级年会(Micro 2017)上 ,包括英伟达 、英特尔 、微软 、 三星、苏黎世联邦理工学院与加州大学圣塔芭芭拉 分校等都推出了存算一体系统原型[10-12]。

         

    尤其是 ,近年来非易失性存储器技术 ,例如闪存 (Flash)、忆阻器(阻变存储器 RRAM)、相变存储器 (PCM)与自旋磁存储器(MRAM)等[13-17] ,为存算一体芯片的高效实施带来了新的曙光。这些非易失性存 储器的电阻式存储原理可以提供固有的计算能力, 因此可以在同一个物理单元地址同时集成数据存储 与数据处理功能。此外 ,非易失性可以让数据直接 存储在片上系统中 ,实现即时开机/关机 ,而不需要 额外的片外存储器。惠普实验室的 Williams 教授团队[18]在 2010 年就提出并验证利用忆阻器实现简单布 尔逻辑功能。

    随后 ,一大批相关研究工作不断涌 现。2016年,美国加州大学圣塔芭芭拉分校(UCSB) 的谢源教授团队提出利用 RRAM 构建基于存算一体 架构的深度学习神经网络(PRIME[19] ),受到业界的 广泛关注。测试结果表明,相比基于冯·诺依曼计算 架构的传统方案 ,PRIME 可以实现功耗降低约 20 倍、速度提高约50倍[20]。这种方案可以高效地实现 向量-矩阵乘法运算,在深度学习神经网络加速器领 域具有巨大的应用前景。国际上杜克大学 、普渡大 学 、斯坦福大学 、马萨诸塞大学 、新加坡南洋理工大 学 、惠普 、英特尔 、镁光等都开展了相关研究工作 ,并 发布了相关测试芯片原型[21-24]。

    我国在这方面的研 究也取得了一系列创新成果,如北京大学黄如教授 与康晋锋教授团队 、中国科学院微电子研究所刘明 教授团队 、清华大学杨华中教授与吴华强教授团队、 中国科学院上海微系统与信息技术研究所宋志棠教 授团队、华中科技大学缪向水教授团队等,都发布了 相关器件/芯片原型 ,并通过图像/语音识别等应用进 行了测试验证[25-27]。PCM 具有与 RRAM 类似的多比 特特性 ,可以基于类似的原理实现向量-矩阵乘法运 算。对于 MRAM 而言 ,由于其二值存储物理特性 , 难以实现基于交叉点阵列的向量-矩阵乘法运算 ,因 此基于 MRAM 的存算一体通常采用布尔逻辑的计算 范式[28-30]。但由于技术/工艺的成熟度等问题 ,迄今基于相变存储器 、阻变存储器与自旋存储器的存算一体 芯片尚未实现产业化。

    与此同时 ,基于 Nor Flash 的存 算一体芯片技术近期受到产业界的格外关注 ,自 2016 年UCSB发布第一个样片以来,多家初创企业在进行 研发,例如美国的Mythic、Syntiant,国内的知存科技 等 ,并受到国内外主流半导体企业与资本的产业投 资 ,包 括 Lam Research 、Applied Materials 、Intel 、 Micron 、ARM 、Bosch 、Amazon 、Microsoft 、Softbank 、 Walden 、中芯国际等。相比较而言 ,Nor Flash 在技术/ 工艺成熟度与成本方面在端侧AIoT领域具有优势,3 大公司均宣布在 2019 年末实现量产。

    端侧智能应用特征与存算一体芯片需求

    随着 AIoT 的快速发展 ,用户对时延 、带宽 、功耗、隐私/安全性等特殊应用需求,如图3(a)所示,驱 动边缘端侧智能应用场景的爆发。首先 ,时延是用 户体验最直观的感受 ,而且是某些应用场景的必需 要求 ,例如自动驾驶 、实时交互游戏 、增强现实/虚拟 现实技术(AR/VR)等。考虑到实时产生的数据量、 实际传输带宽以及端侧设备的能耗 ,不可能所有运 算都依赖云端来完成。例如 ,根据英特尔的估计 ,每辆自动驾驶汽车每天产生的数据量高达400GB[1];再如 ,每个高清安防监控摄像头每天产生的数据量高 达 40~200GB。如果所有车辆甚至所有摄像头产生 的数据都发送到云端进行处理 ,那不仅仅是用户体 验 ,即使对传输网络与云端设备都将是一个灾难 。而且,通常边缘数据的半衰期都比较低,如此巨大的 数据量 ,实际上真正有意义的数据可能非常少 ,所以 并没有意义把全部数据发送到云端去处理。

    此外,同类设备产生的大部分数据通常具有极高的相同模 式化特征 ,借助边缘端/终端有限的处理能力 ,即可 以过滤掉大部分无用数据 ,从而大幅度提高用户体 验与开销。增强用户体验的另一个参数是待机时 间 ,这对便携式可穿戴设备尤为关键。例如智能眼镜与耳机,至少要保证满负荷待机时间在1天以上。因此终端设备的功耗/能效是一个极大的挑战。

    其 次 ,用户对隐私/安全性要求越来越高 ,并不愿意把 数据送到云端处理 ,促使本地处理成为终端设备的 必备能力。例如,随着语音识别、人脸识别应用的普 及 ,越来越多的人开始关心隐私泄露的问题 ,即使智 能家居已经普及 ,但很多用户选择关闭语音处理功 能。最后,在无网环境场景下,边缘终端处理将成为 必需。相应地,不同于云端芯片,对于端侧智能芯 片 ,其对成本 、功耗的要求最高,而对通用性、算力 、 速度的要求次之,如图(3 b)所示。


    因此,依靠器件尺 寸微缩来继续提高芯片性能的传统技术路径在功耗 与成本方面都面临巨大挑战;而依赖器件与架构创 新的技术路径越来越受重视。2018 年 ,美国 DARPA “电子复兴计划”明确提出不再依赖摩尔定律的等比 例微缩道路 ,旨在寻求超越传统冯 · 诺依曼计算架构 的创新 ,利用新材料 、新器件特性和集成技术 ,减少 数据处理电路中移动数据的需求 ,研究新的计算拓 扑架构用于数据存储与处理 ,带来计算性能的显著 提高。业界普遍认为 ,存算一体芯片技术将为实现此目标提供可行的技术路径 。 

     

                     

    存算一体芯片主流研究方向

         

    根据存储器介质的不同 ,目前存算一体芯片的 主流研发集中在传统易失性存储器 ,如 SRAM、DRAM,以及非易失性存储器 ,如 RRAM、PCM、 MRAM 与闪存等 ,其中比较成熟的是以 SRAM 和 MRAM 为代表的通用近存计算架构。值得注意的 是 ,本章将主要讨论基于存算一体芯片的深度学习 神经网络加速器实现。在此类应用中 ,95%以上的运算为向量矩阵乘法( MAC ),因此存算一体主要用来加速这部分运算。

         

    4.1 通用近存计算架构

         

    如图 4 所示 ,这种方案通常采用同构众核的架 构 ,每个存储计算核(MPU)包含计算引擎(processing engine,PE)、缓存(cache)、控制(CTRL) 与输入输出(inout/output,I/O)等,这里缓存可以是SRAM、MRAM 或类似的高速随机存储器。各个 MPU 之间通过片上网络(network-on-chip ,NoC)进行 连接。每个 MPU 访问各自的缓存 ,可以实现高性能 并行运算。典型案例包括英国 Graphcore 公司 ,其测 试芯片集成了 200~400MB 的 SRAM 缓存以及美国 Gyrfalcon Technology 公司 ,其测试芯片集成了 40MB嵌入式MRAM缓存。 

           

    4.2 SRAM 存算一体

     

    由于 SRAM 是二值存储器 ,二值 MAC 运算等效于 XNOR 累加运算 ,可以用于二值神经网 络运算。图 5(a)和图 5(b)为两种典型设计方 案 ,其核心思想是把网络权重存储于 SRAM 单元中 ,激励信号从额外字线给入 ,最终利用外围 电路实现 XNOR 累加运算 ,计算结果通过计数 器或模拟电流输出 ,具体实现可以参考[31-32] 。这 种方案的主要难点是实现大阵列运算的同时保 证运算精度。 

     

                       

    4.3 DRAM存算一体

     

    基于 DRAM 的存算一体设计主要利用 DRAM 单元之间的电荷共享机制[33-34]。如图 6 所示为一种典型 实现方案[33] ,当多行单元同时被选通时 ,不同单元之 间因为存储数据的不同会产生电荷交换共享 ,从而实现逻辑运算。这种方案的问题之一是计算操作对 数据是破坏性的 ,即每次执行运算时 ,DRAM 存储单元存储的数据会破坏 ,需要每次运算后进行刷新 ,带 来较大的功耗问题;另一个难点是实现大阵列运算的同时保证运算精度 。 

           

    4.4 RRAM/PCM/Flash 多值存算一体

     

    基于 RRAM/PCM/Flash 的多值存算一体方案的基本原理是利用存储单元的多值特性 ,通过器件本 征的物理电气行为(例如基尔霍夫定律与欧姆定律)来实现多值 MAC 运算[13,21-25] ,如图 7 所示。每个存储 单元可以看作一个可变电导/电阻 ,用来存储网络权 重,当在每一行施加电流/电压(激励)时,每一列即 可得到 MAC 运算的电压/电流值。实际芯片中 ,根 据不同存储介质的物理原理和操作方法的不同 ,具 体实现方式会有差异 。 

       

    由于 RRAM/PCM/Flash 本身是非易失性存储器 , 可以直接存储网络权重 ,因此不需要片外存储器 ,减 小芯片成本;同时,非易失性可以保证数据掉电不丢 失 ,从而实现即时开机/关机操作 ,减小静态功耗 ,延 长待机时间,非常适用于功耗受限的边缘终端设 备。目前 ,基于 RRAM/PCM 的存算一体技术在学术 界是非常热的一个研究方向 ,遗憾的是 ,因为RRAM/PCM 成熟度等问题 ,目前尚未实现产业化 , 但未来具有非常大的潜力;基于 Flash 的存算一体技 术相对较成熟 ,受到产业界广泛关注 ,预计于 2019 年末量产。 

       

    4.5 RRAM/PCM/MRAM 二值存算一体

     

    基于 RRAM/PCM/MRAM 的二值存算一体主要有两种方案。第一种方案是利用辅助外围电路,跟上述SRAM 存算一体类似 ,如图 8(a)所示为一种典 型的可重构存算一体实现方案[35] ,其可以在存储应 用与存算一体应用之间进行切换。由于 RRAM/ PCM/MRAM 非易失性电阻式存储原理 ,其具有不同 的电路实现方式 ,具体参考[35-37]。第二种方案是直接 利用存储单元实现布尔逻辑计算[28,38-41] ,如图 8(b)所 示 ,这种方案直接利用存储单元的输入输出操作进 行逻辑运算,根据不同存储器存储单元的结构与操作方法不同 ,可以有不同的实现方式 ,具体可以参 考[28,38-41] 。 

              

    应用前景与挑战

         

    存算一体芯片技术,尤其是非易失性存算一体 芯片技术 ,因其高算力 、低功耗 、低成本等优势 ,未来 在 AIoT 领域具有非常大的应用前景。存算一体芯 片 大 规 模 产 业 化 的 挑 战 主 要 来 自 两 方 面 :

    (1 )技 术 层 面:存算一体芯片涉及器件—芯片—算法—应用等多 层次的跨层协同 ,如图 9 所示。例如 ,细分应用场景的不同性能需求决定了神经网络算法与芯片的设 计 ,算法依赖神经网络框架 、编译 、驱动 、映射等工具 与芯片架构的协同,芯片架构又依赖器件、电路与代 工厂工艺。这些对存算一体芯片的研发与制备都是 相当大的一个挑战 ,尤其需要代工厂的支持。特别 是基于新型存储介质的存算一体技术 ,器件物理原 理 、行为特性 、集成工艺都不尽相同 ,需要跨层协同 来 实 现 性 能( 精 度 、功 耗 、时 延 等 )与 成 本 的 最 优 。

    (2 ) 产业生态层面:作为一种新兴技术,想要得到大规模 普及 ,离不开产业生态的建设 ,需要得到芯片厂商 、 软件工具厂商 、应用集成厂商等的大力协同 、研发 、 推广与应用 ,实现性能与场景结合与落地 ,尤其在面 对传统芯片已经占据目前大部分已有应用场景的前 提下 ,如何突破新市场 、吸引新用户是快速产业化落地的关键。英伟达GPU的成功给出了很好的启示与 借鉴。一方面需要优化工具与服务 ,方便用户使用; 另一方面需要尽量避免竞争 ,基于存算一体芯片的 优势 ,开拓新应用 、新场景 、新市场 ,创造传统芯片无 法覆盖的新型应用市场。

             

    郭昕婕, 王绍迪. 端侧智能存算一体芯片概述[J]. 微纳电子与智能制造, 2019, 1(2): 72-82.

    GUO Xinjie, WANG Shaodi. Continuous perception integrated circuits and systems for edge-computing smart devices[J]. Micro/nano Electronics and Intelligent Manufacturing, 2019, 1 (2): 72-82.

    《微纳电子与智能制造》刊号:CN10-1594/TN

    主管单位:北京电子控股有限责任公司

    主办单位:北京市电子科技科技情报研究所

    北京方略信息科技有限公司

    【end】

    精彩推荐

    《原力计划【第二季】- 学习力挑战》正式开始!

    即日起至 3月21日,千万流量支持原创作者更有专属【勋章】等你来挑战

    推荐阅读

    • 你点的每个“在看”,我都认真当成了AI

    展开全文
  • 文献调研-存算一体的实现

    千次阅读 2020-03-16 15:46:24
    Ref8:RRAM存算一体化乘法器的集成电路设计-安徽大学 基于表决器逻辑的运算方法(MIG,Majority-Inverter Graph) 原因:逻辑层面表决器逻辑证明比传统的与或非逻辑具有更快的速度和更小的功耗;痛死表决器逻辑与RRAM...

    接上一篇,找了两篇具体实现来了解架构。

    Ref8:RRAM存算一体化乘法器的集成电路设计-安徽大学

    基于表决器逻辑的运算方法(MIG,Majority-Inverter Graph)
    原因:逻辑层面表决器逻辑证明比传统的与或非逻辑具有更快的速度和更小的功耗;痛死表决器逻辑与RRAM有更好的匹配性
    目前研究的主流新型存储器有:铁电存储器、相变存储器、磁存储器和阻变存储器。
    阻变存储器RRAM有点:结构简单、与CMOS工艺良好的兼容性、器件尺寸可缩小-》最可能替代FLASH存储器的新兴存储器之一。
    RRAM是一个二端器件,MIM结构:上电极、下编辑、中间绝缘介质(电阻转变功能层),通过自身阻态的大小来判断存储的数据。
    RRAM主流研究方向:存储器、逻辑运算、神经突触系统网络。但RRAM其间会随着时间的增加阻值发生变化,造成RRAM阵列阻值不均匀
    1、RRAM存储单元结构
    1R:无源,最简单面积最小,与CMOS工艺兼容但存在串扰现象
    1D1R:无源串联、用于解决串扰 但D的存在使得单元只能单向导通
    1T1R:有源NMOS+R 解决串扰但面积很大
    2、MIG逻辑分析
    多数表决即为通过。用于实现与 或逻辑,缺少非逻辑
    3、基于RRAM的几种运算逻辑
    IMP:蕴含逻辑
    MAGIC:Memristor Aided Logic 实现与、或、非、与非、或非
    MRL:Memristor Ratioed Logic
    4、乘法器设计
    乘法器:乘数与被乘数的中间乘积移位相加完成的->全加器+表决器
    全加器:完成带有低金位数的两个二进制数相加并输出和数与高进位数组合逻辑
    乘法器:通过移位和加法实现->华莱士树
    5、表决器的硬件电路实现
    数字控制模块:verilog+modelsim
    模拟硬件模块:cadence IC51 包括:电源模块、阻变存储器阵列、BL开关阵列、SL开关阵列和灵敏放大器
    数字模块:6个输入信号 两个乘数、clock,reset,start,Sa灵敏放大器
    4个输出信号 Ctr地址信号(待译码),R-E,W-E+数据线
    单个单元的write-verify->状态机设计全加器->基于全加器实现乘法器
    写验证数字模块设计->1bit全加器->4bit乘法器
    模拟模块:RRAM存储阵列、译码电路、BL/SL开关阵列、电源模块、RRAM读电路、
    6、集成模块的物理设计-物理实现+测试电路的搭建

    Ref9:面向大数据处理的应用性能优化方法研究-浙江大学

    基于忆阻器的卷积神经网络加速方法
    -设计专用模块对卷积神经网络计算所需要的操作进行支持(聚焦加速模块空间和时间利用率)

    1、神经网络加速架构

    二维阵列加速-脉动阵列,处理单元纵横分布、处理单元进行乘累加同时将数据传递给相邻的处理单元
    乘加树结构-三级流水分别完成乘法、加法以及非线性运算,控制单元负责协调各个模块之间的协作
    存算一体架构-数据处理在数据存储的本地进行,以消除数据移动带来的开销。关键:架构设计以及算法与架构的映射适配

    2、忆阻器计算+存储的解读

    忆阻器阵列具有融合计算和存储的特性,将一组输入作为电压加载在字线上,另一组输入作为电阻存储在忆阻器单元中,在位线上得到的电流即为两组输入的乘累加计算结果。该过程利用了忆阻器的电阻特性,根据基尔霍夫定律,当加载在字线上的电压通过电阻时,相当于与其电导相乘然后在在位线上进行累加,最终得到两组输入的乘累加结果。
    因此忆阻器阵列可以方便的实现向量乘法乃至矩阵乘法运算,而无需额外的计算单元。
    忆阻器阵列和忆阻器阵列的计算形式
    忆阻器阵列和忆阻器阵列的计算形式

    3、基于忆阻器的卷积神经网络加速

    以忆阻器交叉阵列为基础的计算结构-PRIME,ISAAC,PipeLayer (2016-2017工作)
    PRIME:修改阵列外围电路,支持计算和存储两种模式
    ISAAC:流水线处理,每个神经网络层由特定的忆阻器阵列负责计算
    PipeLayer:聚焦对CNN训练的支持,训练时部分忆阻器阵列负责前向计算,部分负责偏导数计算+基于经验利用权重复制缓解流水线气泡问题
    本文聚焦CNN应用时(也就是前向推理时),设计了:
    (1)全功能设计的计算阵列。每个计算阵列包含一系列功能模块,同时支持计算核存储模式的切换,只需将部分计算阵列切换为存储模式作为数据华黁,其余计算阵列用于CNN计算
    (2)针对卷积核计算特性的混合映射和流水优化。利用卷积操作中卷积核、输入通道、输出数据之间的数据秉性关系,提高忆阻器单元利用率

    4、存算一体加速模块设计

    处理器负责流程控制和一些特殊层(如softmax层)的计算
    存储模块由忆阻器构成,负责提供内存空间
    整个加速系统无需额外的处理单元,二是将存储模块的一部分配置为加速模块。加速模块中存储了神经网络的权重数据,数据在加速模块中流动的同时即可完成相应的神经网络计算,从而消除了加速器与存储模块之间的数据移动,转而替代为存储模块内部的高效数据移动。
    在这里插入图片描述在这里插入图片描述

    加速模块结构-支持卷积、激活、池化、全连接
    乘累加(包括卷积操作和全连接计算),由忆阻器阵列和相应的译码和输入输出模块共同组成;
    加法树负责对多个计算范媛的计算结果进行叠加;
    激活单元负责计算激活函数,输入的是加法树的输出;
    池化缓冲用于临时保存需要进行池化操作的数据;
    池化单元则负责池化计算

    加速模块结构图
    (1)MAC计算单元-负责输入和权重的乘累加,包括4part:输入、忆阻器阵列、地址译码电路、输出模块
    由于忆阻器阻值只能表示数值为正的数据,而网络权重一般有正有负,因此一个计算单元中需要有两个忆阻器阵列分别存储正负权重;
    地址译码电路包括字线译码电路和位线译码电路;输出负责将位线上的电流信号转换为输出数据,涉及魔术转换电路和减法电路
    (2)加法树-二叉树将多个计算单元的计算结果进行累加,首先叠加两两相邻的计算单元的位线结果,然后依次对叠加结果进行了你按直至得到最终结果
    (3)激活单元:常用ReLU可直接根据输入数据的符号位选择输出自身还是0,其他激活函数用查找表实现。
    (4)池化单元+池化缓冲-完成最大池化,寄存器保存池化窗口内较大的输入值,数据采用行缓冲降低存储需求
    (5)计算阵列模式切换-计算模式和存储模式-储存层间数据,此时加法树、激活单元、池化单元等电路结构被旁路,计算单元切换为读写单元,根据层间数据的存储需求进行配置

    5、卷积神经网络映射

    (1)权重映射:权重数据展开映射到忆阻器阵列中与同一条位线相连的忆阻器单元中,输入加载到忆阻器阵列的字线上,好处是输入数据可被卷积核共享达到数据复用;进一步将卷积核权重复制到空闲位线的忆阻器中,进一步并行处理多个输入图像块
    (2)全连接映射:主要做矩阵向量乘积,因此按行划分每一行映射到同一条位线上的忆阻器,每一条位线的输出为最终输出相连的一个元素。由于FC一般权重矩阵规模大,实际需要映射到多个计算阵列中。 加偏置的操作:偏置数据映射到忆阻器阵列的最后一行,大小设为“1”
    在这里插入图片描述

    6、实验设计及结果分析

    8bit量化精度,探究面积、功耗、实验确定忆阻器阵列的大小、计算阵列中计算单元的数量以及计算单元的输出并行度、最终的加速性能评估。

    计算阵列配置vs面积、功耗等、输出并行度、加速性能、功耗和能效

    接下来会根据推荐的会议找一些In-storage computing的论文进行学习。(ISSCC、IEDM、Symposium on VLSI、JSSC、Flash Memory Summit)

    展开全文
  • 存算一体(In-memory Computing)作为一种新兴的技术,为彻底解决冯诺依曼架构的瓶颈带来了希望。01—冯·诺依曼架构的瓶颈传统的计算机采用冯·诺依曼体系结构,在这种体系结构中计算和存储功能是分离的,分别由中央...
  • 存算一体化架构设计 以各种传统工艺(如SRAM、NorFlash)或新型忆阻器工艺(如FeRAM、ReRAM、PCM和MRAM)制作器件构建存储阵列,将神经网络权值参数直接存储在阵列内部,并以模拟信号的形式并行执行大规模矩阵乘法...
  • 0. 什么是In Memory Computing(内计算、存算一体、内存内计算)? In-memory Computing 技术就是以 RAM 取代 hard disk ,将 data 与 CPU 之间的距离缩短,在 RAM 内完成所有运算工作,此举可将速度提升 5,000 ...
  • 下图是一个神经元模型 可以将其抽象为一个数学函数y=f(w1x1+w2x2+…+wn*xn+b)。也就是这个模型同时涵盖输入输出和进行计算。
  • 行业分类-物理装置-一种CMOS感存算一体电路结构.zip
  • 行业分类-物理装置-基于STT-MTJ的存算一体系统、芯片及控制方法.zip
  • 行业分类-电子电器-基于STT-MTJ的存算一体系统、芯片及控制方法.zip
  • 智东西&清华大学-AI芯片合辑第27讲课件:基于忆阻器的存算一体芯片与系统-2020.11-30页.rar
  • 智东西&清华大学-AI芯片合辑第27讲课件:基于忆阻器的存算一体芯片与系统-2020.11-30页.pdf
  • 智东西&清华大学-AI芯片合辑第27讲课件:基于忆阻器的存算一体芯片与系统-2020.11-30页精品报告2020.pdf
  • 本报告主要基于权威机构的公开数据,梳理了国内CRS设备的发展情况及主要CRS品牌的市场份额,并分析了国内厂商在信息技术安全自主可控方面的最新情况。本报告成稿日期为2019年4月。
  • 什么是数据库“存算分离”架构?

    千次阅读 2020-12-26 15:42:46
    所以准备写一篇短文谈谈我对“存算分离”架构的理解,不一定全面,欢迎在评论区探讨。 其实这个朋友是误解了“存算分离”这个概念。他认为普通MySQL云数据库用evs做存储,计算资源和存储资源是分开的,比如可以单独...
  • 风渠全能是一款进销、仓储、生产、财务一体化ERP系统,是市面上真正实现订进销仓财务的一体化的经营管理软件。 简化经营管理流程、智能化、高效化设计、实现企业透
  • CRM-130 机芯由上部机芯(简称UU)、机芯框架(简称BASE)和下部机芯(简称LU)组成。UU 包 括上部机芯框架(简称UB)、入钞模块(简称CS)、识别模块(简称BV)、上部回收箱(选配,简称 URJB)、和连接各模块之间...
  • 行业分类-金融管理-取款一体机上下机芯的定位装置及取款一体机.zip
  • 内存运算的架构、挑战和趋势

    千次阅读 2019-01-30 08:48:34
    (2)存算一体芯片的投资机构包括软银、英特尔、微软、博世、亚马逊甚至美国政府,中国存算一体的知科技将获得下一轮的投资,同时还有清华忆阻器的新忆科技。 (3)存算一体芯片第一代产品都瞄准语音,未来都将...
  • 金多进销财务一体化5000财务功能、从凭证记帐、现金很行、应收应付、明细分类帐、总分类帐、科目汇总模块、财务报表等支持标准财务做帐。是市面上真正实现订进销仓财务
  • 《水泥管理系统—进销一体化》是根据直接厂家出货送货到客户的一体化业务流程。系统主要包括: 1.基本信息:供商信息、客户信息、产品信息 2.业务管理:进销登记 3.来往账款:供商
  • 行业分类-金融管理-取款一体机暂部齿轮轴装置.zip
  • 计算存储感知一体化系统

    千次阅读 2016-11-01 10:06:44
    系统简介控制器:pox 交换机:WNDR3800(OpenWrt12.09+OVS) ●该系统支持用户通过wifi接入,提供连接外网功能 ●该系统可对经过交换机的数据实现采集与分析,整个过程对用户透明 ●该系统可实现流媒体等内容的...
  • 其中的一个创新架构的研究方向是计算和存储一体化(process-in-memory),在存储里面加上计算的功能。 例如,我们的研究团队在去年的计算机架构顶级会议ISCA就发表了一个工作叫PRIME架构[3],在新型存储器件ReRAM...
  • 行业分类-金融管理-取款一体机接客部.zip
  • 郑重承诺: E树ERP,永久5个在线用户免费!!! (无其它任何任何任何限制,后续版本都将坚持这一原则) (郑重承诺:5个在线用户永久免费版,无...BOM+进销+生产+质检+MRP+车间+资产+成本月结+自动凭证(真实好用的财务)..

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 20,138
精华内容 8,055
关键字:

存算一体