精华内容
下载资源
问答
  • 并行性的准确描述
    2021-05-25 04:35:19

    数据挖掘中新的并行算法

    对已提出的挖掘关联规则的并行算法进行了较全面的总结 ,对他们的性能进行了分

    (本文共4页)

    阅读全文>>

    通过数据挖掘进行知识发现是对大型数据库或数据仓库的一种分析,用于发现隐藏在数据仓库中的关系和知识,这些知识会影响管理者的决策和实施。数据仓库上的数据挖掘能够从利用机群并行计算中获利,从而提高其性能和数据分析质量。实际上,挖掘大量数据集会消耗巨大的计算资源,因为在传统的计算机上,对海量数据集进行数据挖掘得到结果是要花费非常多的时间的。一种减少响应时间的方法就是采样,但是在一些情况下,减少训练数据会导致计算模型不准确,甚至不可用。另外一种方法就是并行计算了。高性能计算机和并行数据挖掘结合在一起,就能为挖掘巨型数据集提供一个最佳方案,更快的处理速度意味着用户能够试验更多的模型以更好地理解复杂数据。高性能计算让用户能够分析更多的数据变成现实。这样并行数据挖掘为数据分析和知识提取发挥了越来越重要的作用,在诸如商业和工业领域的数据提取和决策支持中得到应用。虽然目前已提出过一些并行数据挖掘算法,但是存在着通信量过大、可扩展性差、数据分布不合理...

    (本文共140页)

    本文目录 |

    阅读全文>>

    对挖掘关联规则的算法进行了简单的回顾 ,分析...

    (本文共3页)

    阅读全文>>

    指出了已有的挖掘关联规则的研究都没有考虑交易的合并,得到的关联规则是很不完整的.提出了交易合并的必要性,给出了交易合并的一些原...

    (本文共5页)

    阅读全文>>

    本文在对微粒群算法进行改进的基础上,提出了基...

    (本文共6页)

    阅读全文>>

    从大型数据库中挖掘关联规则是数据挖掘中一个重要的课题 .从挖掘要求的时间和空间上看 ,传统的顺序算法已很难适应于现实中不断增大...

    (本文共4页)

    阅读全文>>

    为了减少并行挖掘关联规则过程中产生的网络流量及同步次数,提高挖掘效率,在Tree-DM算法的...

    (本文共3页)

    阅读全文>>

    更多相关内容
  • 分数阶扩散方程可以准确描述异常扩散的迁移过程,在自然科学和工程计算领域得到了广泛的应用。 本文提出了一种具有并行性质的数值方法,即时间分数次扩散方程的交替分段显式-隐式(ASE-I)和隐式-显式(ASI-E)差...
  • 建立了多 UUT并行测试任务资源描述的数学模型,分析了多 UUT测控资源合并的条件,得出最短并行测试时间基础上的最少资源需求,给出了成本效率的定义,设计了一种满足多 UUT并行测试任务调度的基因编码方法和路径选择方案...
  • 在系统中实现了对机票信息的增删改查,考虑到查询的方便,对机票按照航班号进行排序,而此排序方法用并行快速排序运用进来。利用OpenMP的并行技术,对机票信息按顺序排列好,并分析了实验过程中的加速比。 4.6.2 ...
  • 在系统中实现了对机票信息的增删改查,考虑到查询的方便,对机票按照航班号进行排序,而此排序方法用并行快速排序运用进来。利用OpenMP的并行技术,对机票信息按顺序排列好,并分析了实验过程中的加速比。 4.6.2 ...
  • 聚类优化 基本思想 将图像从RGB颜色空间转换到CIE-Lab颜色空间,对应每个像素的(L,a,b)颜色值和(x,y)坐标组成一个5维向量V [L, a, b, x, y ],两个像素的相似即可由它们的向量距离来度量,距离越大,相似...

    SLIC算法是simple linear iterative cluster的简称,该算法用来生成超像素(superpixel)。

    目录

    基本思想

    实现SLIC算法

    1.图像的预处理

    2.初始化聚类中心

    3.优化初始聚类中心

    4. 计算像素点与聚类中心的距离

    5.像素点分类

    6.重新计算聚类中心

    7.迭代4~6的过程

    8.聚类优化


    基本思想

    将图像从RGB颜色空间转换到CIE-Lab颜色空间,对应每个像素的(L,a,b)颜色值和(x,y)坐标组成一个5维向量V [L, a, b, x, y ],两个像素的相似性即可由它们的向量距离来度量,距离越大,相似性越小。

    实现SLIC算法

    1.图像的预处理

    将图像从 RGB 颜色空间转换到 CIE-Lab 颜色空间,Lab颜色空间更符合人类对颜色的视觉感知。这个空间里的距离能反映人感觉到的颜色差别,相关计算更为准确。

    Lab 颜色空间同样具有三个通道,分别是 l,a,b,其中 l 代表亮度,数值范围为 [0, 100],a 表示从绿色到红色的分量,数值范围为[-128, 127],b表示蓝色到黄色的分量,数值范围为[-128, 127]。

    RGB 和 LAB 间没有直接的转换公式,需要将 RGB 转为 XYZ 颜色空间再转为 LAB,具体代码见下一篇中完整代码。

    2.初始化聚类中心

    根据参数确定超像素的数目,也就是需要划分为多少个区域。假设图片有 N 个像素点,预计分割成 K 个超像素,每个超像素大小为 N/K。相邻中心距离为 S = Sqr(N/K),得到 k 个聚类的坐标。

     

     注:推导相邻中心的距离:

    N个像素点可以看作整个图形的面积为N,要分成K个小正方形。每个小正方形的面积就为 N/K。那么小正方形的边长为 Sqr(N/K)。所以相邻中心的距离也为 Sqr(N/k)。

    3.优化初始聚类中心

    在聚类中心的 3 * 3 邻域内选择梯度最小的像素点作为新的聚类中心。

    把图像看成二维离散函数,梯度也就是这个函数的求导,当相邻像素值有变化就会存在梯度,而在边缘上的像素点的梯度最大。将聚类中心挪到梯度最小的地方可以避免其落到边缘轮廓上,影响聚类效果。

    计算一个点 (i, j) 的像素梯度公式为:

    4. 计算像素点与聚类中心的距离

    在聚类中心距离为 S 的区域内,2S * 2S 的领域内计算像素点与每个聚类中心的距离。

    这里的距离使用的是欧式距离,总距离 由 dc颜色距离与 ds空间距离两部分组成。公式如下:

     

     如果直接将labxy拼接成一个矢量计算距离,当超像素的大小变化时,xy的值可以取到非常大 ,比如如果一张图1000*1000,空间距离可以达到1000*Sqr(2),而颜色距离最大仅10*Sqr(2),导致最终计算得到的距离值中,空间距离ds权重占比过大。

    所以需要进行归一化,除以最大值即超像素点的初始宽度S,将值映射到[0,1]。

    而颜色空间距离也会给到一个固定的值m来调节颜色距离与空间距离的影响权重,m取值范围为[1,40]

    距离公式即变成了

     当m越大,颜色空间除以m后的值越小,即空间距离的权重越大,生成的像素会更为形状规则,当m越小,颜色距离权重更大,超像素会在边缘更为紧凑,而形状大小较为不规则。

    5.像素点分类

    标记每个像素点的类别为距离其最小的聚类中心的类别。

    6.重新计算聚类中心

    计算属于同一个聚类的所有像素点的平均向量值,重新得到聚类中心 。

    7.迭代4~6的过程

    直到旧聚类中心与新聚类中心的距离小于一定阈值或者达到一定迭代次数,一般来说,当迭代次数到达10,算法能够达到收敛。

    8.聚类优化

    迭代到最后,可能会出现与聚类中心不属于同一连通域的孤立像素点,可以使用到连通算法将其分配到最近的聚类标签。

    展开全文
  • 关于并行计算的相关总结1. 定义2. 特征及层次3. 应用举例3.1 基于CUDA 的K-Means 多级并行优化方法3.2 面向GPU的直方图统计图像增强并行算法3.3 基于FPGA的多核可扩展卷积加速器设计 1. 定义 并行计算或称平行计算是...

    1. 定义

    并行计算或称平行计算是相对于串行计算来说的。它是一种一次可执行多个指令的算法,目的是提高计算速度,及通过扩大问题求解规模,解决大型而复杂的计算问题。所谓并行计算可分为时间上的并行和空间上的并行。时间上的并行就是指流水线技术,而空间上的并行则是指用多个处理器并发的执行计算。
    并行计算(Parallel Computing)是指同时使用多种计算资源解决计算问题的过程,是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器来协同求解同一问题,即将被求解的问题分解成若干个部分,各部分均由一个独立的处理机来并行计算。并行计算系统既可以是专门设计的、含有多个处理器的超级计算机,也可以是以某种方式互连的若干台的独立计算机构成的集群。通过并行计算集群完成数据的处理,再将处理的结果返回给用户。

    2. 特征及层次

    为利用并行计算,通常计算问题表现为以下特征:
    (1)将工作分离成离散部分,有助于同时解决;
    (2)随时并及时地执行多个程序指令;
    (3)多计算资源下解决问题的耗时要少于单个计算资源下的耗时。
    数字图像处理算法多种多样,但从数据处理的层面来考虑,可以分为:像素级处理、特征级处理和目标级处理三个层次。
    (1)像素级图像处理
    像素级处理,即由一幅像素图像产生另一幅像素图像,处理数据大部分是几何的、规则的和局部的。根据处理过程中的数据相关性,像素级处理又可进一步分为点运算、局部运算和全局运算。
    (2)特征级图像处理
    特征级处理是在像素图像产生的一系列特征上进行的操作。常用的特征包括:形状特征、纹理特征、梯度特征和三维特征等,一般采用统一的测度,如:均值、方差等,来进行描述和处理,具有在特征域内进行并行处理的可能性。但是,由于其特征具有象征意义和非局部特性,在局部区域并行的基础上,需要对总体进行处理。利用GPU实现并行化处理的难度比较大。
    (3)目标级图像处理
    目标级处理是对由一系列特征产生的目标进行操作。由于目标信息具有象征意义和复杂性,通常是利用相关知识进行推理,得到对图像的描述、理解、解释以及识别。由于其数据之间相关性强,且算法涉及到较多的知识和人工干预,并行处理的难度也比较大。

    3. 应用举例

    3.1 基于CUDA 的K-Means 多级并行优化方法

    聚类分析也是数据分类的一种,但与分类技术还存在一定的差别,最大不同之处在于聚类处理数据的所属类是未知的,它是一个无监督过程。是在没有相关经验的基础上,对数据进行处理,分析出数据间内在关联并找出规律,将样本点间距离较近的数据分配到相同的聚类中,反之,将样本点间距离较远的数据分配到不同的聚类中。目前常用的聚类算法分别是基于密度、网格、层次、划分和模型的聚类算法。
    CUDA( Compute Unified Device Architecture) 是由显卡厂商NVIDIA 推出的运算平台,是一种通用的并行计算架构,其能充分结合CPU 和GPU 的优点。其中,CPU 为主处理器( host) 执行逻辑事务处理和串行计算,GPU 作为协处理器( device) 执行高度并行化的计算任务。GPU 的计算核心均匀划分到多个流多处理器( stream multiprocessor,SM) 中。同时,GPU 还有不同的存储机制。其中,设备内存可接受来自CPU 的数据; 共享内存可供SM 中的所有线程块block 公用;寄存器被分配的thread 单独使用。

    3.2 面向GPU的直方图统计图像增强并行算法

    直方图统计在图像增强和目标检测等领域有着重要的应用。然而,随着图像规模不断增大、实时性要求越来越高时,直方图统计局部增强算法的处理过程较慢,达不到预期满意的速度。首先,通过充分利用统一计算设备架构(CUDA)活动线程块和活动线程来并行处理不同的子图像块和像素点,提升了数据访问的效率。然后,采用内核配置参数优化和数据并行计算技术,实现了直方图统计图像增强算法在GPU平台上的并行化。最后,采用主机端和设备端间高效的数据传输模式,进一步缩短了系统在异构计算平台上的执行时间。研究表明,对于像幅大小不同的图像,图像直方图统计并行算法的处理速度相比于CPU串行算法均有两个数量级的提高,处理一幅像幅大小为3241×3685 的图像需要787.11ms,并行算法的处理速度提高了261.35倍。为实现实时大规模图像处理奠定了良好基础。
    CUDA 的应用系统是GPU 和CPU 的混合代码系统。在执行CUDA 系统时,主机端执行的二进制代码在调用核函数时需要将设备端代码通过CUDA API 传给设备端。GPU 传给CUDA API 的设备端代码不一定是二进制代码CUBIN,也可能是运行于JIT动态编译器上的汇编形式的PTX(Parallel Thread Execution)代码。最后传到设备上的是适合具体GPU 的二进制代码,其中的信息多于PTX 或者CUBIN,这是因为CUBIN 或者PTX 只包含了线程块一级的信息,而不包括整个网格的信息。目前,在GPU 上可以运行的指令长度仍然有限制,不能超过两百万条PTX 指令。GPU 端二进制代码主要包括网格的维度和线程块的维度,每个线程块使用的资源数量,要运行的指令以及常数存储器中的数据。
    算法包含三级并行性:
    (1)像素点级并行:为了对图像中包含的隐含特征进行局部增强,需要将图像进行直方图统计,对每一幅图像的每一个像素点的处理是相互独立的,可以并行执行;
    (2)均值和方差值级并行:每个像素点的局部均值和局部方差的计算是相互独立的,可以并行执行;
    (3)窗口级并行:每个局部统计窗口的处理是相互独立的,可以并行处理。
    数字图像本质上就是一个二维数组,每个像素的处理过程是相互独立并且完全
    一样的计算过程。因此,可以在GPU 集群上采用MPI 和CUDA 相结合的技术,由MPI 完成更大图像块之间的并行,由每个节点上的GPU 完成图像块内的并行,通过GPU 集群可以使处理速度更快,争取能够在更短的时间内完成更大尺寸的图像处理工作。

    3.3 基于FPGA的多核可扩展卷积加速器设计

    为解决卷积神经网络计算效率和能效较低的问题,提出并设计一种使用定点数据作为输入的卷积加速器。加速器支持动态量化的8Bits定点数据的卷积计算,通过采用分块计算的策略和改进的循环计算顺序,有效提高计算效率;支持激活、批标准化(BN)、池化和全连接等计算;基于软硬件协同设计的思路,设计包含卷积加速器和ARM处理器在内的SOC系统。提出一种将加速器进行多核扩展的方法,提高算力和移植便捷性。将加速器部署在Xilinx ZCU102开发板上,其中单核加速器的算力达到了153.6GOP/s,在计算核数目增加到4个和8个的情况下,算力分别增至614.4 GOP/s和1024 GOP/s。
    对于FPGA平台中实现的卷积加速设计,主要围绕以下思路来展开:基于CNN网络中输入特征映射和卷积核多通道的特性,设计乘加阵列进行并行计算;基于有限的片上存储资源,对输入和权重数据进行分块,并通过设置片上缓存来暂时存储分块数据以减少加速器与片外存储之间的数据访存次数;通过设计特定的循环展开计算顺序,实现片上缓存数据的复用以及高效的并行计算效率。
    加速器主要由计算单元、片上缓存以及控制器组成。计算单元主要由乘加模块、累加模块、BN计算模块、定点处理模块、激活模块以及池化模块组成,是完成加速计算的关键部分。片上缓存调用FPGA的BRAM资源,将来自片外的输入特征映射、权重数据以及卷积计算结果暂存。而控制器主要产生一些控制卷积计算过程的信号,保证计算准确有序进行。

    展开全文
  • 相关阅读:量子计算专栏一:量子比特是什么01引言谈到量子计算的并行处理的特性,有点计算机常识的人不禁会问电子计算机也有这种特性,这有什么稀奇的。在远程会议开组会的时候,确实是可以让电脑“...

    相关阅读:量子计算专栏一:量子比特是什么

    01

    引言

    谈到量子计算的并行处理的特性,有点计算机常识的人不禁会问电子计算机也有这种特性,这有什么稀奇的。在远程会议开组会的时候,确实是可以让电脑“同时”运行腾讯会议,word,和扫雷游戏这三个应用程序,但是需要搞清楚的是电子计算机的并行处理其实是一种假象,准确地说应该是是宏观并行,微观串行。电子计算机的“并行处理”是建立在处理器的高速处理信息基础上。刘慈欣的小说《三体》中描述三体世界在侵略地球前为了锁死人类的基础科学,发送了两颗智子来地球搞破坏,因为智子的运行速度够快,它们可以同时干扰地球上所有粒子对撞机的运行状态,也可以同时监控地球上重要人物的行为,这其实就是微观高速可以实现宏观并行的例子。量子计算则不然,它的并行处理是植根于量子独有的特性叠加态和纠缠态上,本文会对量子计算的并行处理进行详细的介绍。

    02

    经典计算速度提升

    在专栏一中介绍了量子比特的叠加性带来了编码方式的突破,能够极大地增加信息容量,这相当于解决了信息存储的问题,但是只提升了信息存储能力的话是不够的。这就相当于有一个很大的广场,但假如通往广场的道路都还是非常狭窄的话,那么会造成拥挤堵塞。所以,如果只是单纯提升了信息容量,并没有配套地提升信息处理能力的话,那么总的计算能力还是没有办法提高。

    经典计算系统里面进行信息处理的就是处理器,那么最直接的方法肯定就是提高处理器的核心速度,也就是单位时间里面能处理信息的数量。586处理器就是比486要快,iPhone11手机的处理器主频是2.66GHz,这大概是1秒钟进行30亿次信息处理,但其实在2004年的时候因特尔公司就已经把处理器做到3.8GHz了。15年过去了,这个数值不升反降的原因在于处理器芯片上元器件密度太高的话能耗和散热问题就解决不了,会影响手机的使用体验。那么电子计算提升信息处理速度只能通过追加物理资源,1个处理器不行那就2个,2个不够那就增加到4 个、8个……。所以现在,电脑手机的处理器都是多核心的,一个芯片上集成了好多个信息处理模块。近几年流行起来的GPU也是同样的思路。GPU原来是专门进行图像处理的处理器,但后来发现,它们用在比特币挖矿、深度学习这些领域特别好用,以我经常做实验用到NVIDIA的GeForce RTX2080ti的显卡内置有4608个流处理器,这就是典型的速度不够,数量来凑。

    03

    资源换速度的囧境

    明眼的人会发现这种拿资源提升信息处理速度的方式是不可持续的,一个最好的例证就是在专栏一里提到过的黑洞图片是花了两年才计算清洗出来的。再比如说,你要走一个迷宫,要尽可能快地找到出口。经典计算提高处理器速度的方式,就是让你能够跑得更快了,但是你还是需要一个岔路一个岔路地试。如果遇到了死胡同还要退回来重新走。用多核的方式就相当于不只是你一个人在走迷宫了,你找来了一些帮手熊大,熊二,喜羊羊,灰太狼,以及四大天王魔里青,魔里红,魔里寿和郭富城。然后安排好,这个人走这边那个人走那边。这肯定可以加快找出口的速度。但是这些人不能白走,对应到计算机里面就是更多核心要消耗更多的物理资源。这样的方法提升的速度也非常有限。第一个分岔路,你需要2个人,如果分岔路后面又有分岔路呢,就需要4个人了,然后是8个人、16个人。这可是指数增长,不需要多,在后面第30个路口的时候,需要的人数就已经赶上全中国的人口了。

    04

    量子比特

    量子计算是怎样克服这个问题的在于量子比特是可以处于叠加状态的。在专栏一里提到例子中,10根量子手指可以同时表示1024份苹果,需要注意不是1024个而是1024份,每份的数量都可以不同。这是存储信息,如果信息处理的时候还要一份一份地处理的话,那么量子计算的速度还是没办法提高。但在量子力学的规律下,这10根量子手指代表的1024份苹果是可以一起并行演化的。还是以上面走迷宫的例子,这次走迷宫换成了火影忍者中的鸣人。他根本不需要其他小伙伴。走迷宫的时候,他只需要在每条岔路影分身一次。这样所有的分岔路就能够被同时探索到,只需要走一次,就可以找到迷宫的出口。这就是量子叠加态的并行演化。

    随着量子比特数量的增大,信息容量也会指数增长,并且并行演化。就好像不但修了更大的广场,道路也相应拓宽了,这就能轻松地追上问题难度的指数增长了。这就是量子叠加和并行演化,为量子计算带来的巨大优势。

    05

    推荐

    上面介绍的主要还是叠加性带来的优势,其实量子的另一个特效也会为信息处理能力,带来重大的提升,那就是量子纠缠。一般情况下,两个量子比特互相之间都是独立的。两个量子比特建立纠缠,就相当于两个人结拜了,发誓要同生共死。假如说结拜的这两个人是量子比特,在结拜之前,他们2个人可以有4种状态,分别是“生生”“生死”“死生”“死死”。但是两个人结拜了,也就是说建立了量子纠缠,那么他们两个人的状态就从原来的4 种,变成了2种。要么都是生,要么都是死。也就是说,不管两个人距离有多远,一个人发生意外死了,另一个人也会马上死掉。这是纠缠的方式保证了2个量子比特的同步性。不只2个可以,3个、4个、更多也都可以。计算机里保持数据同步是非常重要的,但是它需要额外消耗计算资源。假如一台计算机中有10 个数,现在要把每个数都+1。经典计算机必须分别找到存储这10个数的比特,第1个数执行+1,再找到第2个数执行+1,再找到第3个数,以此类推。操作10次,最后完成任务。量子计算机不用这么麻烦,它只要把存储着10个数字的量子比特制备成纠缠态。这样,不管量子比特们分散在存储器的哪个位置,只需要对某一个数执行了+1,其它9个就自动更新了,效率就大大提高了。所以说,量子纠缠也为信息处理能力的提高提供了巨大潜力。

    编辑 ∑Gemini

    文章推荐

    最全数学各个分支简介

    十大中国数学之最

    数学和编程

    机器学习中需要了解的 5 种采样方法

    北大读博手记:怎样完成自己的博士生涯?非常具有指导性!

    施一公:为什么要独立思考、为什么要尊重科学?

    展开全文
  • 并行计算机未来发展前景

    千次阅读 2016-11-24 20:37:47
    到80年代蓬勃发展和百家争鸣,再到90年代体系结构框架趋于统一,并行计算机得到突破的发展。现代计算机的发展历程可以分为2个时代:串行计算时代和并行计算时代。并行计算是在串行计算的基础上发展起来的。并行...
  • 本文是腾讯深度学习系列文章的第二篇,聚焦于腾讯深度学习平台(Tencent Deep Learning Platform)中深度卷积神经网络Deep CNNs的多GPU模型并行和数据并行框架。  将深度卷积神经网络(Convolutional Neural ...
  • Matlab 并行代码

    千次阅读 2019-04-09 15:56:24
    转自:并行代码 1 并行问题的由来——从抛硬币说起 举个简单的例子:抛100次硬币统计正面向上的次数...问题来了,必须保证这2个硬币完全相同以及抛硬币者的动作一致,才能确保该并行试验的完备。那么怎么能...
  • 各厂商纷纷通过各种方式提升计算能力,如提高指令级并行能力,在一个时钟周期内执行更多指令、向量指令、多核和超线程技术等。从长远来看,最有可能引领未来的是向量化和多核技术:向量化是指使用同一条指令同时操作...
  • 串行和并行是两种基本的主要计算模型。串行计算起源于 20世纪 40年代,比并行(分布式)计算早了近十年。当时,架构、编译器、应用程序和问题解决环境成为计算发展的四个关键要素。 计算时代的兴起离不开硬件...
  • 采用代数关系描述,构建了基于故障辅助因子的馈线故障区段定位的非线性方程组模型,并采用具有并行特征的牛顿-拉夫逊法进行求解,其优点在于:对报警信息畸变的情况具有强适应,故障定位时具有高容错;...
  • 并行计算简介 (对网上翻译文章再进行整理,可能存在些问题,请参考原贴) 1 摘要 最近项目需要实现程序的并行化,刚好借着翻译这篇帖子的机会,了解和熟悉并行计算的基本概念和程序设计。帖子的原文见这里,原翻译...
  • [并行计算] 1. 并行计算简介

    万次阅读 多人点赞 2017-07-20 15:30:07
    这篇帖子旨在为并行计算这一广泛而宏大的话题提供一个非常快速的概述,作为随后教程的先导。因此,它只涵盖了并行计算的基础知识,实用于刚刚开始熟悉该主题的初学者。
  • 模型并行( **model parallelism** ):分布式系统中的不同机器(GPU/CPU等)负责网络模型的不同部分 —— 例如,神经网络模型的不同网络层被分配到不同的机器,或者同一层内部的不同参数被分配到不同机器;...
  • 在 MSCOCO数据集上进行测试,实验结果表明,与基于CNN的其他方法相比文中方法在语义丰富程度指标 CIDER上取得了2%的提升,在准确性指标BLEU上有1%左右的性能提升;同时,其在部分指标,尤其是语义指标上超过了基于...
  • 这篇文章就计算体系结构展开讨论,从计算框架特别是异构系统下的计算模式和并行计算结构设计的角度,分析异构并行计算架构设计和软件编程技术。 并行计算体系结构 不同层次的并行化设计已成为现代计算体系设计的...
  • 先来描述Google在2012年发表在NIPS上的一个工作[2],虽然不是分布式机器学习系统的第一篇,但我相信是在近几年来影响最为深远的一篇,之后包括微软等公司纷纷研究自己的分布式系统Adam[12],Parameter Server[1][3][4...
  • 摘 要遗传算法是一种随机的全局优化算法。粗粒度并行遗传算法作为遗传算法的一个重要改进型,具有比经典遗传算法更好的计算性能,可以比较有效地平衡未成熟收敛和局部收敛速度过慢这对矛盾。本文主要讨论粗粒度...
  • 有许多功能可以提高卷积神经网络(CNN)的准确性。需要在大型数据集上对这些特征的组合进行实际测试,并对结果进行理论证明。一些功能仅在某些模型上运行,并且仅在某些问题上运行,或者仅在小规模数据集上运行; ...
  • 一种并行随机梯度下降法

    万次阅读 多人点赞 2014-06-23 13:53:56
    Lab)合作的论文 Parallelized Stochastic Gradient Descent 中给出了一种适合于 MapReduce 的并行随机梯度下降法,并给出了相应的收敛分析。这里忽略理论部分,根据自己的理解给出文中所提并行随机梯度下降法的...
  • CUDA 高性能并行计算入门

    万次阅读 多人点赞 2018-03-09 10:40:08
    1.更新pitch索引操作的描述 概述 什么是CUDA? CUDA(Compute Unified Device Architecture)是 NVIDIA公司开发的一种计算架构,可以利用NVIDIA系列显卡对一些复杂的计算进行并行加速。 为什么要用CUDA加速? ...
  • 众所周知,MySQL的复制延迟是一直被诟病的问题之一,在MySQL 5.7版本已经支持“真正”的并行复制功能,官方称为为enhanced multi-threaded slave(简称MTS),因此复制延迟问题已经得到了极大的改进。总之,MySQL ...
  • C# 多线程、并行和异步
  • 用单个CPU上的串行PCA实现和使用Hadoop的PCA的分布式并行版本相比,评估了我们的实现效率在准确性并行执行性能方面。 本文的其余部分安排如下。第二部分描述了提出的并行和分布式框架。第三部分介绍了PCA算法...
  • 并行计算的入门文章非`劳伦斯利弗莫尔国家实验室(LLNL)`的`《Introduction to Parallel Computing Tutorial》`所属,于是本着学习的态度,笔者对其进行了翻译,以下是`《Introduction to Parallel Computing ...
  • 描述一下:用root用户启动的MATLAB,可以正常启动并行池,如下图所示。 然而,换成普通用户,就变成下图的熊样子。。。。 最下面的错误信息很有迷惑:无效的属性默认值。翻遍了配置文件也没看出来哪里无效...
  • 如图 5.3 所示,与较小的块相比,较大的块可以更好地利用硬件并行性,并可以实现更高的推理速度。但是其粗略的修剪粒度导致准确性下降。较小的块可以获得较高的精度,但会牺牲推理速度。根据结果,研究者将 8×4(8 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 52,346
精华内容 20,938
热门标签
关键字:

并行性的准确描述