精华内容
下载资源
问答
  • UML类图几种关系以及c++的实现

    千次阅读 2013-08-28 21:14:12
    转: http://kb.cnblogs.com/page/129490/ http://www.vckbase.com/index.php/wv/232 ... 在UML类图常见的有以下几种关系: 泛化(Generalization), 实现(Re

    转:

    http://kb.cnblogs.com/page/129490/

    http://www.vckbase.com/index.php/wv/232

    http://www.cppblog.com/API/archive/2011/03/31/143085.html


    在UML类图中,常见的有以下几种关系: 泛化(Generalization),  实现(Realization),关联(Association),聚合(Aggregation),组合(Composition),依赖(Dependency)

       1. 泛化(Generalization)

      【泛化关系】:是一种继承关系,表示一般与特殊的关系,它指定了子类如何特化父类的所有特征和行为。例如:老虎是动物的一种,即有老虎的特性也有动物的共性。

      【箭头指向】:带三角箭头的实线,箭头指向父类

     

      2. 实现(Realization)

      【实现关系】:是一种类与接口的关系,表示类是接口所有特征和行为的实现.

      【箭头指向】:带三角箭头的虚线,箭头指向接口

     

      3. 关联(Association)

      【关联关系】:是一种拥有的关系,它使一个类知道另一个类的属性和方法;如:老师与学生,丈夫与妻子关联可以是双向的,也可以是单向的。双向的关联可以有两个箭头或者没有箭头,单向的关联有一个箭头。

      【代码体现】:成员变量

      【箭头及指向】:带普通箭头的实心线,指向被拥有者

     

      上图中,老师与学生是双向关联,老师有多名学生,学生也可能有多名老师。但学生与某课程间的关系为单向关联,一名学生可能要上多门课程,课程是个抽象的东西他不拥有学生。 

      下图为自身关联: 

      4. 聚合(Aggregation)

      【聚合关系】:是整体与部分的关系,且部分可以离开整体而单独存在。如车和轮胎是整体和部分的关系,轮胎离开车仍然可以存在。

      聚合关系是关联关系的一种,是强的关联关系;关联和聚合在语法上无法区分,必须考察具体的逻辑关系。

      【代码体现】:成员变量

      【箭头及指向】:带空心菱形的实心线,菱形指向整体

     

      5. 组合(Composition)

      【组合关系】:是整体与部分的关系,但部分不能离开整体而单独存在。如公司和部门是整体和部分的关系,没有公司就不存在部门。

           组合关系是关联关系的一种,是比聚合关系还要强的关系,它要求普通的聚合关系中代表整体的对象负责代表部分的对象的生命周期。

    【代码体现】:成员变量

    【箭头及指向】:带实心菱形的实线,菱形指向整体

      6. 依赖(Dependency)

      【依赖关系】:是一种使用的关系,即一个类的实现需要另一个类的协助,所以要尽量不使用双向的互相依赖.

      【代码表现】:局部变量、方法的参数或者对静态方法的调用

      【箭头及指向】:带箭头的虚线,指向被使用者

     

      各种关系的强弱顺序:

      泛化 = 实现 > 组合 > 聚合 > 关联 > 依赖 

      下面这张UML图,比较形象地展示了各种类图关系:



    以下含有对各种关系的c++语言的实现


     UML 类图中的 ”关联关系(association) “、”聚合关系(aggregation) “、”合成关系 (compostion)“ 和”依赖关系 (dependency)“ 不是很容易区分清楚,《UML distilled》 对这几个关系也没有解释的特别清楚。近日翻阅《Java 与模式》,发现其中对这些关系有较为清晰的描述,特摘录如下:

     关联关系 (association):

       (1)关联关系是类与类之间的联结,它使一个类知道另一个类的属性和方法。
       (2)关联可以是双向的,也可以是单向的。双向的关联可以有两个箭头或者没有箭头,单向的关联有一个箭头。

       (3)在 Java 或 c++ 中,关联关系是通过使用成员变量来实现的。 

    class 徒弟 

       { }; 
       class 唐僧 
        { 
        protected: 
       list<徒弟> tdlist; 
        }; 
        

     聚合关系 (aggregation):

       1、聚合关系是关联关系的一种,是强的关联关系。
       2、聚合是整体和部分之间的关系,例如汽车由引擎、轮胎以及其它零件组成。
       3、聚合关系也是通过成员变量来实现的。但是,关联关系所涉及的两个类处在同一个层次上,而聚合关系中,两个类处于不同的层次上,一个代表整体,一个代表部分。
       4、关联与聚合仅仅从 Java 或 C++ 语法上是无法分辨的,必须考察所涉及的类之间的逻辑关系
       class 引擎 
       { 
       }; 
       class 轮胎 
       { 
       }; 
       class 汽车 
       { 
       protected: 
       引擎 engine; 
       轮胎 tyre[4]; 
       }; 
       

    合成关系 (composition):

       1、合成关系是关联关系的一种,是比聚合关系还要强的关系。
       2、它要求普通的聚合关系中代表整体的对象负责代表部分的对象的生命周期。
       class 肢 
       { 
       }; 
       class 人 
       { 
       protected: 
       肢 limb[4]; 
       }; 

    依赖关系 (dependency):

       1、依赖关系也是类与类之间的联结
       2、依赖总是单向的。
       3、依赖关系在 Java 或 C++ 语言中体现为局部变量、方法的参数或者对静态方法的调用。

    显示代码打印

      {
       public void buy(Car car) 
       { ... } 

       }
     






    类图

    静态视图说明了对象的结构,其中最常用的就是类图,类图可以帮助我们更直观的了解一个系统的体系结构,有时侯,描述系统快照的对象图(Object diagram)也是很有用的。在这里,我们主要介绍类图,下面的图就是一个简单的类图:

    在类图中,类由矩形框来表示,如上图中,定义了4个类,分别为Base、A、B、C,类之间的关系通过各种线条和其他符号来表示,在上图中,空心的三角表示继承关系,在UML的术语中,这种关系被称为泛化(Generalization),所以上面的类用等价代码表示为:

    1. class Base{…};
    2. class A:public Base{…};
    3. class B:public Base{…};
    4. class C:public Base{…};

    我们再看下一幅图:

     

    这幅图与上幅几乎没有什么区别,唯一的不同就是Base类中增加了成员,一个私有的integer _x(UML术语为property)和一个公有的fun()的函数(method),是否需要这些类的内部细节UML本身并没有限制,完全取决于你自己如何使用,UML的用处在于帮助你了解系统,所以只要你自己觉得足够清楚,那么够了,不要再复杂了。

    接着看第三幅图:

     

    上面图中的箭头表示一种关系,箭头另一边有一个菱形(空心)表示聚合(aggregation),聚合的意义表示has-a关系,其等价代码如下:

    1. class A{…};
    2. class B{ A* theA;…};

    聚合是一种相对松散的关系,聚合类B不需要对被聚合的类A负责

    下面的图:

    这幅图与上面的唯一区别是菱形为实心的,它代表了一种更为坚固的关系――组合(composition)。组合表示的关系也是has-a,不过在这里,A的生命期受B控制,通常情况,等价代码如下:

    1. class A{…};
    2. class B{A theA;…};

    即A会随着B的创建而创建,随B的消亡而消亡。

    下图:

    这里B与A的关系只是一种依赖关系,这种关系表明,如果类A被修改,那么类B会受到影响,一个简单的例子就是:

    1. class A{…};
    2. class B{fun(A params);…};

    常用的关系就是我们上面用的这些,通过这些关系和类表示的类图,我们可以用图形化的方式描述一个系统的设计部分,当你习惯使用UML后,你会发现,这往往比你告诉同伴某某类从某某类派生,派生类又和某某类具有什么关系容易的多。





    展开全文
  • 一些常见的技术术语

    千次阅读 2017-07-10 09:58:20
    英文术语DML(Data Manipulation Language)数据操纵语言(Data Manipulation Language, DML)是SQL语言,负责对数据库对象运行数据访问工作的指令集,以INSERT、UPDATE、DELETE三指令为核心,分别代表插入、...

    前言

    这里整理了自己在了解架构相关方面遇到的一些专业术语(英文),在此记录以便于以后查阅。

    英文术语


    C

    CDN

    内容分发网络(Content delivery network或Content distribution network,缩写:CDN)是指一种通过互联网互相连接的电脑网络系统,利用最靠近每位用户的服务器,更快、更可靠地将音乐、图片、视频、应用程序及其他文件发送给用户,来提供高性能、可扩展性及低成本的网络内容传递给用户。


    D

    DAO

    在计算机软件中,数据访问对象(data access object,DAO)是为某种类型的数据库或其他持久性机制提供一个抽象接口的对象。通过映射应用程序对持久层的调用,DAO提供一些特定的数据操作,而无需暴露数据库细节。这种隔离支持单一功能原则。它分离了应用程序需要访问哪些数据,就域特定对象和数据类型(DAO的公共接口),而言,这些需求可以用数据库管理系统(DBMS)、数据库模式等满足(DAO的实现)。
    尽管这种设计模式同样适用于以下内容:1、大多数编程语言;2、有持久化需求的大多数软件类型;3、大多数数据库。它在传统上与Java EE应用程序和关系数据库相关(通过JDBC API访问,因为它源于Sun Microsystems的最佳实践指南,该平台的“核心J2EE模式”)。

    DBA

    数据库管理员(英语:Database administrator,简称DBA),是负责管理数据库的人。数据库管理员负责在系统上运行数据库,执行备份,执行安全策略和保持数据库的完整性。因为管理数据库是个很庞大的职务,每个公司或组织的数据库管理员的需要也是很不同。一个大公司可能有很多数据库管理员,但是一个小公司可能也没有数据库管理员,而让系统管理员管理数据库。

    DCL

    数据控制语言 (Data Control Language) 在SQL语言中,是一种可对数据访问权进行控制的指令,它可以控制特定用户账户对数据表、查看表、预存程序、用户自定义函数等数据库对象的控制权。由 GRANT 和 REVOKE 两个指令组成。

    DDL

    数据定义语言(Data Definition Language,DDL)是SQL语言集中负责数据结构定义与数据库对象定义的语言,由CREATE、ALTER与DROP三个语法所组成,最早是由Codasyl(Conference on Data Systems Languages)数据模型开始,现在被纳入SQL指令中作为其中一个子集。

    DML

    数据操纵语言(Data Manipulation Language, DML)是SQL语言中,负责对数据库对象运行数据访问工作的指令集,以INSERT、UPDATE、DELETE三种指令为核心,分别代表插入、更新与删除,是开发以数据为中心的应用程序必定会使用到的指令,因此有很多开发人员都把加上SQL的SELECT语句的四大指令以“CRUD”来称呼。

    DQL

    数据查询语言(Data Query Language, DQL)是SQL语言中,负责进行数据查询而不会对数据本身进行修改的语句,这是最基本的SQL语句。


    F

    FastCGI

    快速通用网关接口(Fast Common Gateway Interface/FastCGI)是一种让交互程序与Web服务器通信的协议。FastCGI是早期通用网关接口(CGI)的增强版本。
    FastCGI致力于减少网页服务器与CGI程序之间交互的开销,从而使服务器可以同时处理更多的网页请求。


    I

    InnoDB

    InnoDB,是MySQL的数据库引擎之一,为MySQL AB发行binary的标准之一。InnoDB由Innobase Oy公司所开发,2006年五月时由甲骨文公司并购。与传统的ISAM与MyISAM相比,InnoDB的最大特色就是支持了ACID兼容的事务(Transaction)功能,类似于PostgreSQL。
    目前InnoDB采用双轨制授权,一是GPL授权,另一是专有软件授权。
    XtraDB为派生自InnoDB的强化版,由Percona公司开发,从MariaDB的10.0.9版起取代InnoDB成为默认的数据库引擎。


    M

    memcached

    memcached是一套分布式的高速缓存系统,由LiveJournal的Brad Fitzpatrick开发,但目前被许多网站使用。这是一套开放源代码软件,以BSD license授权发布。
    memcached缺乏认证以及安全管制,这代表应该将memcached服务器放置在防火墙后。
    memcached的API使用三十二比特的循环冗余校验(CRC-32)计算键值后,将数据分散在不同的机器上。当表格满了以后,接下来新增的数据会以LRU机制替换掉。由于memcached通常只是当作缓存系统使用,所以使用memcached的应用程序在写回较慢的系统时(像是后端的数据库)需要额外的代码更新memcached内的数据。

    MyISAM

    MyISAM是MySQL的默认数据库引擎(5.5版之前),由早期的ISAM所改良。虽然性能极佳,但却有一个缺点:不支持事务处理(transaction)。不过,在这几年的发展下,MySQL也导入了InnoDB(另一种数据库引擎),以强化参照完整性与并发违规处理机制,后来就逐渐取代MyISAM。
    每个MyISAM数据表,皆由存储在硬盘上的3个文件所组成,每个文件都以数据表名称为文件主名,并搭配不同扩展名区分文件类型:
    .frm--存储数据表定义,此文件非MyISAM引擎的一部分。
    .MYD--存放真正的数据。
    .MYI--存储索引信息。

    与InnoDB之比较
    InnoDB可借由事务日志(Transaction Log)来恢复程序崩溃(crash),或非预期结束所造成的数据错误;而MyISAM遇到错误,必须完整扫描后才能重建索引,或修正未写入硬盘的错误。InnoDB的修复时间,大略都是固定的,但MyISAM的修复时间,则与数据量的多寡成正比。相对而言,随着数据量的增加,InnoDB会有较佳的稳定性。
    MyISAM必须依靠操作系统来管理读取与写入的缓存,而InnoDB则是有自己的读写缓存管理机制。(InnoDB不会将被修改的數據頁立即交给操作系统)因此在某些情况下,InnoDB的数据访问会比MyISAM更有效率。
    InnoDB目前并不支持MyISAM所提供的压缩与terse row formats,所以对硬盘与高速缓存的使用量较大。因此MySQL从5.0版开始,提供另一个负载较轻的格式,他可减少约略20%的系统负载,而压缩功能已项目于未来的新版中推出。
    当操作完全兼容ACID(事务)时,虽然InnoDB会自动合并数笔连接,但每次有事务产生时,仍至少须写入硬盘一次,因此对于某些硬盘或磁盘阵列,会造成每秒200次的事务处理上限。若希望达到更高的性能且保持事务的完整性,就必使用磁盘缓存与电池备援。当然InnoDB也提供数种对性能冲击较低的模式,但相对的也会降低事务的完整性。而MyISAM则无此问题,但这并非因为它比较先进,这只是因为它不支持事务。


    N

    NFS

    网络文件系统(英语:Network File System,缩写为NFS)是一种分布式文件系统协议,最初由Sun Microsystems公司开发,并于1984年发布。[1]其功能旨在允许客户端主机可以像访问本地存储一样通过网络访问服务器端文件。
    NFS和其他许多协议一样,是基于开放网络运算远程过程调用(ONC RPC)协议之上的。它是一个开放、标准的RFC协议,任何人或组织都可以依据标准实现它。

    NoSql

    NoSQL是对不同于传统的关系数据库的数据库管理系统的统称。
    两者存在许多显著的不同点,其中最重要的是NoSQL不使用SQL作为查询语言。其数据存储可以不需要固定的表格模式,也经常会避免使用SQL的JOIN操作,一般有水平可扩展性的特征。


    O

    ORM

    对象关系映射(英语:Object Relational Mapping,简称ORM,或O/RM,或O/R mapping),是一种程序设计技术,用于实现面向对象编程语言里不同类型系统的数据之间的转换。从效果上说,它其实是创建了一个可在编程语言里使用的“虚拟对象数据库”。如今已有很多免费和收费的ORM产品,而有些程序员更倾向于创建自己的ORM工具。
    面向对象是从软件工程基本原则(如耦合、聚合、封装)的基础上发展起来的,而关系数据库则是从数学理论发展而来的,两套理论存在显著的区别。为了解决这个不匹配的现象,对象关系映射技术应运而生。
    简单的说:ORM相当于中继数据。具体到产品上,例如下边的ADO.NET Entity Framework。DLINQ中实体类的属性[Table]就算是一种中继数据。
    对象关系映射成功运用在不同的面向对象持久层产品中,如:Torque,OJB,Hibernate,TopLink,Castor JDO,TJDO,Active Record,NHibernate,ADO.NET Entity Framework 等。


    R

    Redis

    Redis是一个使用ANSI C编写的开源、支持网络、基于内存、可选持久性的键值对存储数据库。从2015年6月开始,Redis的开发由Redis Labs赞助,而2013年5月至2015年6月期间,其开发由Pivotal赞助。在2013年5月之前,其开发由VMware赞助。根据月度排行网站DB-Engines.com的数据显示,Redis是最流行的键值对存储数据库。

    中文术语


    F

    反向代理

    在电脑网络中,反向代理是代理服务器的一种。它根据客户端的请求,从后端的服务器(如Web服务器)上获取资源,然后再将这些资源返回给客户端。与前向代理不同,前向代理作为一个媒介将互联网上获取的资源返回给相关联的客户端,而反向代理是在服务器端(如Web服务器)作为代理使用,而不是客户端。客户端通过前向代理可以访问很多不同的资源,而反向代理是很多客户端都通过它访问不同后端服务器上的资源,而不需要知道这些后端服务器的存在,而以为所有资源都来自于这个反向代理服务器。

    分治法

    在计算机科学中,分治法是建基于多项分支递归的一种很重要的算法范式。字面上的解释是“分而治之”,就是把一个复杂的问题分成两个或更多的相同或相似的子问题,直到最后子问题可以简单的直接求解,原问题的解即子问题的解的合并。
    这个技巧是很多高效算法的基础,如排序算法(快速排序、归并排序)、傅立叶变换(快速傅立叶变换)。
    另一方面,理解及设计分治法算法的能力需要一定时间去掌握。正如以归纳法去证明一个理论,为了使递归能够推行,很多时候需要用一个较为概括或复杂的问题去取代原有问题。而且并没有一个系统性的方法去适当地概括问题。
    分治法这个名称有时亦会用于将问题简化为只有一个细问题的算法,例如用于在已排序的列中寻找其中一项的折半搜索算法(或是在数值分析中类似的勘根算法)。这些算法比一般的分治算法更能有效地执行。其中,假如算法使用尾部递归的话,便能转换成简单的循环。但在这广义之下,所有使用递归或循环的算法均被视作“分治算法”。因此,有些作者考虑“分治法”这个名称应只用于每个有最少两个子问题的算法。而只有一个子问题的曾被建议使用减治法这个名称。
    分治算法通常以数学归纳法来验证。而它的计算成本则多数以解递回关系式来判定。

    负载均衡

    负载平衡(Load balancing)是一种计算机网络技术,用来在多个计算机(计算机集群)、网络连接、CPU、磁盘驱动器或其他资源中分配负载,以达到最优化资源使用、最大化吞吐率、最小化响应时间、同时避免过载的目的。
    使用带有负载平衡的多个服务器组件,取代单一的组件,可以通过冗余提高可靠性。负载平衡服务通常是由专用软体和硬件来完成。


    K

    空间复杂度

    空间复杂度(Space Complexity)是对一个算法在运行过程中临时占用存储空间大小的量度,记做S(n)=O(f(n))。比如直接插入排序的时间复杂度是O(n2),空间复杂度是O(1) 。而一般的递归算法就要有O(n)的空间复杂度了,因为每次递归都要存储返回信息。一个算法的优劣主要从算法的执行时间和所需要占用的存储空间两个方面衡量。


    N

    内存数据库

    内存数据库是指一种将全部内容存放在内存中,而非传统数据库那样存放在外部存储器中的数据库。内存数据库指的是所有的数据访问控制都在内存中进行,这是与磁盘数据库相对而言的,磁盘数据库虽然也有一定的缓存机制,但都不能避免从外设到内存的交换,而这种交换过程对性能的损耗是致命的。由于内存的读写速度极快(双通道DDR3-1333可以达到9300 MB/s,一般磁盘约150 MB/s),随机访问时间更是可以纳秒计(一般磁盘约10 ms,双通道DDR3-1333可以达到0.05 ms),所以这种数据库的读写性能很高,主要用在对性能要求极高的环境中,但是在服务器关闭后会立刻丢失全部储存的数据。常见的例子有MySQL的MEMORY存储引擎、eXtremeDB、FastDB、SQLite、Microsoft SQL Server Compact等。


    O

    耦合性

    耦合性(英语:Coupling,dependency,或称耦合力或耦合度)是一种软件度量,是指一程序中,模块及模块之间信息或参数依赖的程度。
    内聚性是一个和耦合性相对的概念,一般而言低耦合性代表高内聚性,反之亦然。耦合性和内聚性都是由提出结构化设计概念的赖瑞·康斯坦丁所提出。低耦合性是结构良好程序的特性,低耦合性程序的可读性及可维护性会比较好。


    S

    时间复杂度

    在计算机科学中,算法的时间复杂度是一个函数,它定量描述了该算法的运行时间。这是一个代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述,不包括这个函数的低阶项和首项系数。使用这种方式时,时间复杂度可被称为是渐近的,亦即考察输入值大小趋近无穷时的情况。例如,如果一个算法对于任何大小为 n (必须比 n0 大)的输入,它至多需要 5n3 + 3n 的时间运行完毕,那么它的渐近时间复杂度是 O(n3)。
    为了计算时间复杂度,我们通常会估计算法的操作单元数量,每个单元运行的时间都是相同的。因此,总运行时间和算法的操作单元数量最多相差一个常量系数。
    相同大小的不同输入值仍可能造成算法的运行时间不同,因此我们通常使用算法的最坏情况复杂度,记为 T(n) ,定义为任何大小的输入 n 所需的最大运行时间。另一种较少使用的方法是平均情况复杂度,通常有特别指定才会使用。时间复杂度可以用函数 T(n) 的自然特性加以分类,举例来说,有着 T(n) = O(n) 的算法被称作“线性时间算法”;而 T(n) = O(Mn) 和 Mn= O(T(n)) ,其中 M ≥ n > 1 的算法被称作“指数时间算法”。


    W

    微服务

    微服务 (Microservices) 是一种软件架构风格,它是以专注于单一责任与功能的小型功能区块 (Small Building Blocks) 为基础,利用模组化的方式组合出复杂的大型应用程序,各功能区块使用与语言无关 (Language-Independent/Language agnostic) 的 API 集相互通讯。微服务架构运用于软件架构风格的其中一项概念是甘露运算 (Dew Computing),意指由许多的小露水 (代表微服务的功能元件) 汇集而成的运算能力。
    微服务的起源是由 Peter Rodgers 博士于 2005 年度云端运算博览会提出的微 Web 服务 (Micro-Web-Service) 开始,Juval Löwy 则是与他有类似的前导想法,将类别变成细粒服务 (granular services),以作为 Microsoft 下一阶段的软件架构,其核心想法是让服务是由类似 Unix 管道的存取方式使用,而且复杂的服务背后是使用简单 URI 来开放界面,任何服务,任何细粒都能被开放 (exposed)。这个设计在 HP 的实验室被实现,具有改变复杂软件系统的强大力量。
    2014年,Martin Fowler 与 James Lewis 共同提出了微服务的概念,定义了微服务是由以单一应用程序构成的小服务,自己拥有自己的行程与轻量化处理,服务依业务功能设计,以全自动的方式部署,与其他服务使用 HTTP API 通讯。同时服务会使用最小的规模的集中管理 (例如 Docker) 能力,服务可以用不同的编程语言与数据库等元件实作。


    Z

    中间件

    中间件(英语:Middleware),又译中间件,是提供系统软件和应用软件之间连接的软件,以便于软件各部件之间的沟通,特别是应用软件对于系统软件的集中的逻辑,在现代信息技术应用框架如Web服务、面向服务的体系结构等中应用比较广泛。如数据库、Apache的Tomcat,IBM公司的WebSphere,BEA公司的WebLogic应用服务器,东方通公司的Tong系列中间件,以及Kingdee公司的等都属于中间件。
    严格来讲,中间件技术已经不局限于应用服务器、数据库服务器。围绕中间件,Apache组织、IBM、Oracle(BEA)、微软各自发展出了较为完整的软件产品体系。(Microsoft Servers微软公司的服务器产品)。中间件技术创建在对应用软件部分常用功能的抽象上,将常用且重要的过程调用、分布式组件、消息队列、事务、安全、连结器、商业流程、网络并发、HTTP服务器、Web Service等功能集于一身或者分别在不同品牌的不同产品中分别完成。一般认为在商业中间件及信息化市场主要存在微软阵营、Java阵营、开源阵营。阵营的区分主要体现在对下层操作系统的选择以及对上层组件标准的制订。目前主流商业操作系统主要来自Unix、苹果公司和Linux的系统以及微软视窗系列。微软阵营的主要技术提供商来自微软及其商业伙伴,Java阵营则来自IBM、Sun(已被Oracle收购)、Oracle、BEA(已被Oracle收购)、金蝶(Kingdee Apusic)及其合作伙伴,开源阵营则主要来自诸如Apache,SourceForge等组织的共享代码。
    中间件技术的蓬勃发展离不开标准化,标准的创建有助于融合不同阵营的系统。越来越多的标准被三大阵营共同接受并推广发展。 中间件技术的发展方向朝着更广阔范围的标准化,功能的层次化,产品的系列化方面发展。
    基于中间件技术构建的商业信息软件广泛的应用于能源、电信、金融、银行、医疗、教育等行业软件,降低了面向行业的软件的开发成本。

    展开全文
  • 常见的大数据术语

    千次阅读 2015-02-12 14:01:21
    本文由 伯乐在线 - 小胖妞妞 翻译,蓝枫紫叶 校稿。未经许可,禁止转载! ...欢迎加入翻译小组。 ...大数据的出现带来了许多新的术语,但这些术语往往比较...当然,这份术语表并没有100%包含所有的术语,如果你认

    本文由 伯乐在线 - 小胖妞妞 翻译,蓝枫紫叶 校稿。未经许可,禁止转载!
    英文出处:www.bigdata-startups.com。欢迎加入翻译小组


    大数据的出现带来了许多新的术语,但这些术语往往比较难以理解。因此,我们通过本文给出一个常用的大数据术语表,抛砖引玉,供大家深入了解。其中部分定义参考了相应的博客文章。当然,这份术语表并没有100%包含所有的术语,如果你认为有任何遗漏之处,请告之我们。

    A

    • 聚合(Aggregation) – 搜索、合并、显示数据的过程
    • 算法(Algorithms) – 可以完成某种数据分析的数学公式
    • 分析法(Analytics) – 用于发现数据的内在涵义
    • 异常检测(Anomaly detection) – 在数据集中搜索与预期模式或行为不匹配的数据项。除了“Anomalies”,用来表示异常的词有以下几种:outliers, exceptions, surprises, contaminants.他们通常可提供关键的可执行信息
    • 匿名化(Anonymization) – 使数据匿名,即移除所有与个人隐私相关的数据
    • 应用(Application) – 实现某种特定功能的计算机软件
    • 人工智能(Artificial Intelligence) – 研发智能机器和智能软件,这些智能设备能够感知周遭的环境,并根据要求作出相应的反应,甚至能自我学习

    B

    • 行为分析法(Behavioural Analytics) – 这种分析法是根据用户的行为如“怎么做”,“为什么这么做”,以及“做了什么”来得出结论,而不是仅仅针对人物和时间的一门分析学科,它着眼于数据中的人性化模式
    • 大数据科学家(Big Data Scientist) – 能够设计大数据算法使得大数据变得有用的人
    • 大数据创业公司(Big data startup) – 指研发最新大数据技术的新兴公司
    • 生物测定术(Biometrics) – 根据个人的特征进行身份识别
    • B字节 (BB: Brontobytes) – 约等于1000 YB(Yottabytes),相当于未来数字化宇宙的大小。1 B字节包含了27个0!
    • 商业智能(Business Intelligence) – 是一系列理论、方法学和过程,使得数据更容易被理解

    C

    • 分类分析(Classification analysis) – 从数据中获得重要的相关性信息的系统化过程; 这类数据也被称为元数据(meta data),是描述数据的数据
    • 云计算(Cloud computing) – 构建在网络上的分布式计算系统,数据是存储于机房外的(即云端)
    • 聚类分析(Clustering analysis) – 它是将相似的对象聚合在一起,每类相似的对象组合成一个聚类(也叫作簇)的过程。这种分析方法的目的在于分析数据间的差异和相似性
    • 冷数据存储(Cold data storage) – 在低功耗服务器上存储那些几乎不被使用的旧数据。但这些数据检索起来将会很耗时
    • 对比分析(Comparative analysis) – 在非常大的数据集中进行模式匹配时,进行一步步的对比和计算过程得到分析结果
    • 复杂结构的数据(Complex structured data) – 由两个或多个复杂而相互关联部分组成的数据,这类数据不能简单地由结构化查询语言或工具(SQL)解析
    • 计算机产生的数据(Computer generated data) – 如日志文件这类由计算机生成的数据
    • 并发(Concurrency) – 同时执行多个任务或运行多个进程
    • 相关性分析(Correlation analysis) – 是一种数据分析方法,用于分析变量之间是否存在正相关,或者负相关
    • 客户关系管理(CRM: Customer Relationship Management) – 用于管理销售、业务过程的一种技术,大数据将影响公司的客户关系管理的策略

    D

    • 仪表板(Dashboard) – 使用算法分析数据,并将结果用图表方式显示于仪表板中
    • 数据聚合工具(Data aggregation tools) - 将分散于众多数据源的数据转化成一个全新数据源的过程
    • 数据分析师(Data analyst) – 从事数据分析、建模、清理、处理的专业人员
    • 数据库(Database) – 一个以某种特定的技术来存储数据集合的仓库
    • 数据库即服务(Database-as-a-Service) – 部署在云端的数据库,即用即付,例如亚马逊云服务(AWS: Amazon Web Services)
    • 数据库管理系统(DBMS: Database Management System) – 收集、存储数据,并提供数据的访问
    • 数据中心(Data centre) – 一个实体地点,放置了用来存储数据的服务器
    • 数据清洗(Data cleansing) – 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性
    • 数据管理员(Data custodian) – 负责维护数据存储所需技术环境的专业技术人员
    • 数据道德准则(Data ethical guidelines) – 这些准则有助于组织机构使其数据透明化,保证数据的简洁、安全及隐私
    • 数据订阅(Data feed) – 一种数据流,例如Twitter订阅和RSS
    • 数据集市(Data marketplace) – 进行数据集买卖的在线交易场所
    • 数据挖掘(Data mining) – 从数据集中发掘特定模式或信息的过程
    • 数据建模(Data modelling) – 使用数据建模技术来分析数据对象,以此洞悉数据的内在涵义
    • 数据集(Data set) – 大量数据的集合
    • 数据虚拟化(Data virtualization) – 数据整合的过程,以此获得更多的数据信息,这个过程通常会引入其他技术,例如数据库,应用程序,文件系统,网页技术,大数据技术等等
    • 去身份识别(De-identification) – 也称为匿名化(anonymization),确保个人不会通过数据被识别
    • 判别分析(Discriminant analysis) – 将数据分类;按不同的分类方式,可将数据分配到不同的群组,类别或者目录。是一种统计分析法,可以对数据中某些群组或集群的已知信息进行分析,并从中获取分类规则。
    • 分布式文件系统(Distributed File System) – 提供简化的,高可用的方式来存储、分析、处理数据的系统
    • 文件存贮数据库(Document Store Databases) – 又称为文档数据库(document-oriented database), 为存储、管理、恢复文档数据而专门设计的数据库,这类文档数据也称为半结构化数据

    E

    • 探索性分析(Exploratory analysis) – 在没有标准的流程或方法的情况下从数据中发掘模式。是一种发掘数据和数据集主要特性的一种方法
    • E字节(EB: Exabytes) – 约等于1000 PB(petabytes), 约等于1百万 GB。如今全球每天所制造的新信息量大约为1 EB
    • 提取-转换-加载(ETL: Extract, Transform and Load) – 是一种用于数据库或者数据仓库的处理过程。即从各种不同的数据源提取(E)数据,并转换(T)成能满足业务需要的数据,最后将其加载(L)到数据库

    F

    • 故障切换(Failover) – 当系统中某个服务器发生故障时,能自动地将运行任务切换到另一个可用服务器或节点上
    • 容错设计(Fault-tolerant design) – 一个支持容错设计的系统应该能够做到当某一部分出现故障也能继续运行

    G

    • 游戏化(Gamification) – 在其他非游戏领域中运用游戏的思维和机制,这种方法可以以一种十分友好的方式进行数据的创建和侦测,非常有效。
    • 图形数据库(Graph Databases) – 运用图形结构(例如,一组有限的有序对,或者某种实体)来存储数据,这种图形存储结构包括边缘、属性和节点。它提供了相邻节点间的自由索引功能,也就是说,数据库中每个元素间都与其他相邻元素直接关联。
    • 网格计算(Grid computing) – 将许多分布在不同地点的计算机连接在一起,用以处理某个特定问题,通常是通过云将计算机相连在一起。

    H

    • Hadoop – 一个开源的分布式系统基础框架,可用于开发分布式程序,进行大数据的运算与存储。
    • Hadoop数据库(HBase) – 一个开源的、非关系型、分布式数据库,与Hadoop框架共同使用
    • HDFS – Hadoop分布式文件系统(Hadoop Distributed File System);是一个被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统
    • 高性能计算(HPC: High-Performance-Computing) – 使用超级计算机来解决极其复杂的计算问题

    I

    • 内存数据库(IMDB: In-memory) – 一种数据库管理系统,与普通数据库管理系统不同之处在于,它用主存来存储数据,而非硬盘。其特点在于能高速地进行数据的处理和存取。
    • 物联网(Internet of Things) – 在普通的设备中装上传感器,使这些设备能够在任何时间任何地点与网络相连。

    J

    • 法律上的数据一致性(Juridical data compliance) – 当你使用的云计算解决方案,将你的数据存储于不同的国家或不同的大陆时,就会与这个概念扯上关系了。你需要留意这些存储在不同国家的数据是否符合当地的法律。

    K

    • 键值数据库(KeyValue Databases) – 数据的存储方式是使用一个特定的键,指向一个特定的数据记录,这种方式使得数据的查找更加方便快捷。键值数据库中所存的数据通常为编程语言中基本数据类型的数据。

    L

    • 延迟(Latency) – 表示系统时间的延迟
    • 遗留系统(Legacy system) – 是一种旧的应用程序,或是旧的技术,或是旧的计算系统,现在已经不再支持了。
    • 负载均衡(Load balancing) – 将工作量分配到多台电脑或服务器上,以获得最优结果和最大的系统利用率。
    • 位置信息(Location data) – GPS信息,即地理位置信息。
    • 日志文件(Log file) – 由计算机系统自动生成的文件,记录系统的运行过程。

    M

    • M2M数据(Machine2Machine data) – 两台或多台机器间交流与传输的内容
    • 机器数据(Machine data) – 由传感器或算法在机器上产生的数据
    • 机器学习(Machine learning) – 人工智能的一部分,指的是机器能够从它们所完成的任务中进行自我学习,通过长期的累积实现自我改进。
    • MapReduce – 是处理大规模数据的一种软件框架(Map: 映射,Reduce: 归纳)。
    • 大规模并行处理(MPP: Massively Parallel Processing) – 同时使用多个处理器(或多台计算机)处理同一个计算任务。
    • 元数据(Metadata) – 被称为描述数据的数据,即描述数据数据属性(数据是什么)的信息。
    • MongoDB – 一种开源的非关系型数据库(NoSQL database)
    • 多维数据库(Multi-Dimensional Databases) – 用于优化数据联机分析处理(OLAP)程序,优化数据仓库的一种数据库。
    • 多值数据库(MultiValue Databases) – 是一种非关系型数据库(NoSQL), 一种特殊的多维数据库:能处理3个维度的数据。主要针对非常长的字符串,能够完美地处理HTML和XML中的字串。

    N

    • 自然语言处理(Natural Language Processing) – 是计算机科学的一个分支领域,它研究如何实现计算机与人类语言之间的交互。
    • 网络分析(Network analysis) – 分析网络或图论中节点间的关系,即分析网络中节点间的连接和强度关系。
    • NewSQL – 一个优雅的、定义良好的数据库系统,比SQL更易学习和使用,比NoSQL更晚提出的新型数据库
    • NoSQL – 顾名思义,就是“不使用SQL”的数据库。这类数据库泛指传统关系型数据库以外的其他类型的数据库。这类数据库有更强的一致性,能处理超大规模和高并发的数据。

    O

    • 对象数据库(Object Databases) – (也称为面象对象数据库)以对象的形式存储数据,用于面向对象编程。它不同于关系型数据库和图形数据库,大部分对象数据库都提供一种查询语言,允许使用声明式编程(declarative programming)访问对象.
    • 基于对象图像分析(Object-based Image Analysis) – 数字图像分析方法是对每一个像素的数据进行分析,而基于对象的图像分析方法则只分析相关像素的数据,这些相关像素被称为对象或图像对象。
    • 操作型数据库(Operational Databases) – 这类数据库可以完成一个组织机构的常规操作,对商业运营非常重要,一般使用在线事务处理,允许用户访问 、收集、检索公司内部的具体信息。
    • 优化分析(Optimization analysis) – 在产品设计周期依靠算法来实现的优化过程,在这一过程中,公司可以设计各种各样的产品并测试这些产品是否满足预设值。
    • 本体论(Ontology) – 表示知识本体,用于定义一个领域中的概念集及概念之间的关系的一种哲学思想。(译者注: 数据被提高到哲学的高度,被赋予了世界本体的意义,成为一个独立的客观数据世界)
    • 异常值检测(Outlier detection) – 异常值是指严重偏离一个数据集或一个数据组合总平均值的对象,该对象与数据集中的其他它相去甚远,因此,异常值的出现意味着系统发生问题,需要对此另加分析。

    P

    • 模式识别(Pattern Recognition) – 通过算法来识别数据中的模式,并对同一数据源中的新数据作出预测
    • P字节(PB: Petabytes) – 约等于1000 TB(terabytes), 约等于1百万 GB (gigabytes)。欧洲核子研究中心(CERN)大型强子对撞机每秒产生的粒子个数就约为1 PB
    • 平台即服务(PaaS: Platform-as-a-Service) – 为云计算解决方案提供所有必需的基础平台的一种服务
    • 预测分析(Predictive analysis) – 大数据分析方法中最有价值的一种分析方法,这种方法有助于预测个人未来(近期)的行为,例如某人很可能会买某些商品,可能会访问某些网站,做某些事情或者产生某种行为。通过使用各种不同的数据集,例如历史数据,事务数据,社交数据,或者客户的个人信息数据,来识别风险和机遇
    • 隐私(Privacy) – 把具有可识别出个人信息的数据与其他数据分离开,以确保用户隐私。
    • 公共数据(Public data) – 由公共基金创建的公共信息或公共数据集。

    Q

    • 数字化自我(Quantified Self) – 使用应用程序跟踪用户一天的一举一动,从而更好地理解其相关的行为
    • 查询(Query) – 查找某个问题答案的相关信息

    R

    • 再识别(Re-identification) – 将多个数据集合并在一起,从匿名化的数据中识别出个人信息
    • 回归分析(Regression analysis) – 确定两个变量间的依赖关系。这种方法假设两个变量之间存在单向的因果关系(译者注:自变量,因变量,二者不可互换)
    • RFID – 射频识别; 这种识别技术使用一种无线非接触式射频电磁场传感器来传输数据
    • 实时数据(Real-time data) – 指在几毫秒内被创建、处理、存储、分析并显示的数据
    • 推荐引擎(Recommendation engine) – 推荐引擎算法根据用户之前的购买行为或其他购买行为向用户推荐某种产品
    • 路径分析(Routing analysis) – 针对某种运输方法通过使用多种不同的变量分析从而找到一条最优路径,以达到降低燃料费用,提高效率的目的

    S

    • 半结构化数据(Semi-structured data) – 半结构化数据并不具有结构化数据严格的存储结构,但它可以使用标签或其他形式的标记方式以保证数据的层次结构
    • 情感分析(Sentiment Analysis) – 通过算法分析出人们是如何看待某些话题
    • 信号分析(Signal analysis) – 指通过度量随时间或空间变化的物理量来分析产品的性能。特别是使用传感器数据。
    • 相似性搜索(Similarity searches) – 在数据库中查询最相似的对象,这里所说的数据对象可以是任意类型的数据
    • 仿真分析(Simulation analysis) – 仿真是指模拟真实环境中进程或系统的操作。仿真分析可以在仿真时考虑多种不同的变量,确保产品性能达到最优
    • 智能网格(Smart grid) – 是指在能源网中使用传感器实时监控其运行状态,有助于提高效率
    • 软件即服务(SaaS: Software-as-a-Service) – 基于Web的通过浏览器使用的一种应用软件
    • 空间分析(Spatial analysis) – 空间分析法分析地理信息或拓扑信息这类空间数据,从中得出分布在地理空间中的数据的模式和规律
    • SQL – 在关系型数据库中,用于检索数据的一种编程语言
    • 结构化数据(Structured data) -可以组织成行列结构,可识别的数据。这类数据通常是一条记录,或者一个文件,或者是被正确标记过的数据中的某一个字段,并且可以被精确地定位到。

    T

    • T字节(TB: Terabytes) – 约等于1000 GB(gigabytes)。1 TB容量可以存储约300小时的高清视频。
    • 时序分析(Time series analysis) – 分析在重复测量时间里获得的定义良好的数据。分析的数据必须是良好定义的,并且要取自相同时间间隔的连续时间点。
    • 拓扑数据分析(Topological Data Analysis) – 拓扑数据分析主要关注三点:复合数据模型、集群的识别、以及数据的统计学意义。
    • 交易数据(Transactional data) – 随时间变化的动态数据
    • 透明性(Transparency) – 消费者想要知道他们的数据有什么作用、被作何处理,而组织机构则把这些信息都透明化了。

    U

    • 非结构化数据(Un-structured data) – 非结构化数据一般被认为是大量纯文本数据,其中还可能包含日期,数字和实例。

    V

    • 价值(Value) – (译者注:大数据4V特点之一) 所有可用的数据,能为组织机构、社会、消费者创造出巨大的价值。这意味着各大企业及整个产业都将从大数据中获益。
    • 可变性(Variability) – 也就是说,数据的含义总是在(快速)变化的。例如,一个词在相同的推文中可以有完全不同的意思。
    • 多样(Variety) – (译者注:大数据4V特点之一) 数据总是以各种不同的形式呈现,如结构化数据,半结构化数据,非结构化数据,甚至还有复杂结构化数据
    • 高速(Velocity) – (译者注:大数据4V特点之一) 在大数据时代,数据的创建、存储、分析、虚拟化都要求被高速处理。
    • 真实性(Veracity) – 组织机构需要确保数据的真实性,才能保证数据分析的正确性。因此,真实性(Veracity)是指数据的正确性。
    • 可视化(Visualization) – 只有正确的可视化,原始数据才可被投入使用。这里的“可视化”并非普通的图型或饼图,可视化指是的复杂的图表,图表中包含大量的数据信息,但可以被很容易地理解和阅读。
    • 大量(Volume) – (译者注:大数据4V特点之一) 指数据量,范围从Megabytes至Brontobytes

    W

    • 天气数据(Weather data) – 是一种重要的开放公共数据来源,如果与其他数据来源合成在一起,可以为相关组织机构提供深入分析的依据

    X

    • XML数据库(XML Databases) – XML数据库是一种以XML格式存储数据的数据库。XML数据库通常与面向文档型数据库相关联,开发人员可以对XML数据库的数据进行查询,导出以及按指定的格式序列化

    Y

    • Y字节 (Yottabytes) – 约等于1000 ZB (Zettabytes), 约等于250万亿张DVD的数据容量。现今,整个数字化宇宙的数据量为1 YB, 并且将每18年翻一番。

    Z

    • Z字节 (ZB: Zettabytes) – 约等于1000 EB (Exabytes), 约等于1百万 TB。据预测,到2016年全球范围内每天网络上通过的信息大约能达到1 ZB。

    附:存储容量单位换算表:
    1 Bit(比特) = Binary Digit
    8 Bits = 1 Byte(字节)
    1,000 Bytes = 1 Kilobyte
    1,000 Kilobytes = 1 Megabyte
    1,000 Megabytes = 1 Gigabyte
    1,000 Gigabytes = 1 Terabyte
    1,000 Terabytes = 1 Petabyte
    1,000 Petabytes = 1 Exabyte
    1,000 Exabytes = 1 Zettabyte
    1,000 Zettabytes = 1 Yottabyte
    1,000 Yottabytes = 1 Brontobyte
    1,000 Brontobytes = 1 Geopbyte

    关于作者: 小胖妞妞


    展开全文
  • 大数据的出现带来了许多新的术语,但这些术语往往比较难以理解。因此,我们通过本文给出一个常用的大数据术语表,抛砖引玉,供大家深入了解。其中部分定义参考了相应的博客文章。当然,这份术语表并没有100%包含所有...

           大数据的出现带来了许多新的术语,但这些术语往往比较难以理解。因此,我们通过本文给出一个常用的大数据术语表,抛砖引玉,供大家深入了解。其中部分定义参考了相应的博客文章。当然,这份术语表并没有100%包含所有的术语

    A

    聚合(Aggregation) – 搜索、合并、显示数据的过程。

    算法(Algorithms) – 可以完成某种数据分析的数学公式。

    分析法(Analytics) – 用于发现数据的内在涵义。

    异常检测(Anomaly detection) – 在数据集中搜索与预期模式或行为不匹配的数据项。除了“Anomalies”,用来表示异常的词有以下几种:outliers, exceptions, surprises, contaminants.他们通常可提供关键的可执行信息。

    匿名化(Anonymization) – 使数据匿名,即移除所有与个人隐私相关的数据。

    应用(Application) – 实现某种特定功能的计算机软件。

    人工智能(Artificial Intelligence) – 研发智能机器和智能软件,这些智能设备能够感知周遭的环境,并根据要求作出相应的反应,甚至能自我学习。

    B

    行为分析法(Behavioural Analytics) – 这种分析法是根据用户的行为如“怎么做”,“为什么这么做”,以及“做了什么”来得出结论,而不是仅仅针对人物和时间的一门分析学科,它着眼于数据中的人性化模式。

    大数据科学家(Big Data Scientist) – 能够设计大数据算法使得大数据变得有用的人。

    大数据创业公司(Big data startup) – 指研发最新大数据技术的新兴公司。

    生物测定术(Biometrics) – 根据个人的特征进行身份识别。

    B字节 (BB: Brontobytes) – 约等于1000 YB(Yottabytes),相当于未来数字化宇宙的大小。1 B字节包含了27个0。

    商业智能(Business Intelligence) – 是一系列理论、方法学和过程,使得数据更容易被理解。

    C

    分类分析(Classification analysis) – 从数据中获得重要的相关性信息的系统化过程; 这类数据也被称为元数据(meta data),是描述数据的数据。

    云计算(Cloud computing) – 构建在网络上的分布式计算系统,数据是存储于机房外的(即云端)。

    聚类分析(Clustering analysis) – 它是将相似的对象聚合在一起,每类相似的对象组合成一个聚类(也叫作簇)的过程。这种分析方法的目的在于分析数据间的差异和相似性。

    冷数据存储(Cold data storage) – 在低功耗服务器上存储那些几乎不被使用的旧数据。但这些数据检索起来将会很耗时。

    对比分析(Comparative analysis) – 在非常大的数据集中进行模式匹配时,进行一步步的对比和计算过程得到分析结果。

    复杂结构的数据(Complex structured data) – 由两个或多个复杂而相互关联部分组成的数据,这类数据不能简单地由结构化查询语言或工具(SQL)解析。

    计算机产生的数据(Computer generated data) – 如日志文件这类由计算机生成的数据。

    并发(Concurrency) – 同时执行多个任务或运行多个进程。

    相关性分析(Correlation analysis) – 是一种数据分析方法,用于分析变量之间是否存在正相关,或者负相关。

    客户关系管理(CRM: Customer Relationship Management) – 用于管理销售、业务过程的一种技术,大数据将影响公司的客户关系管理的策略。

    D

    仪表板(Dashboard) – 使用算法分析数据,并将结果用图表方式显示于仪表板中。

    数据聚合工具(Data aggregation tools) – 将分散于众多数据源的数据转化成一个全新数据源的过程。

    数据分析师(Data analyst) – 从事数据分析、建模、清理、处理的专业人员。

    数据库(Database) – 一个以某种特定的技术来存储数据集合的仓库。

    数据库即服务(Database-as-a-Service) – 部署在云端的数据库,即用即付,例如亚马逊云服务(AWS: Amazon Web Services)。

    数据库管理系统(DBMS: Database Management System) – 收集、存储数据,并提供数据的访问。

    数据中心(Data centre) – 一个实体地点,放置了用来存储数据的服务器。

    数据清洗(Data cleansing) – 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。

    数据管理员(Data custodian) – 负责维护数据存储所需技术环境的专业技术人员。

    数据道德准则(Data ethical guidelines) – 这些准则有助于组织机构使其数据透明化,保证数据的简洁、安全及隐私。

    数据订阅(Data feed) – 一种数据流,例如Twitter订阅和RSS。

    数据集市(Data marketplace) – 进行数据集买卖的在线交易场所。

    数据挖掘(Data mining) – 从数据集中发掘特定模式或信息的过程。

    数据建模(Data modelling) – 使用数据建模技术来分析数据对象,以此洞悉数据的内在涵义。

    数据集(Data set) – 大量数据的集合。

    数据虚拟化(Data virtualization) – 数据整合的过程,以此获得更多的数据信息,这个过程通常会引入其他技术,例如数据库,应用程序,文件系统,网页技术,大数据技术等等。

    去身份识别(De-identification) – 也称为匿名化(anonymization),确保个人不会通过数据被识别。

    判别分析(Discriminant analysis) – 将数据分类;按不同的分类方式,可将数据分配到不同的群组,类别或者目录。是一种统计分析法,可以对数据中某些群组或集群的已知信息进行分析,并从中获取分类规则。

    分布式文件系统(Distributed File System) – 提供简化的,高可用的方式来存储、分析、处理数据的系统。

    文件存贮数据库(Document Store Databases) – 又称为文档数据库(document-oriented database), 为存储、管理、恢复文档数据而专门设计的数据库,这类文档数据也称为半结构化数据。

    E

    探索性分析(Exploratory analysis) – 在没有标准的流程或方法的情况下从数据中发掘模式。是一种发掘数据和数据集主要特性的一种方法。

    E字节(EB: Exabytes) – 约等于1000 PB(petabytes), 约等于1百万 GB。如今全球每天所制造的新信息量大约为1 EB。

    提取-转换-加载(ETL: Extract, Transform and Load) – 是一种用于数据库或者数据仓库的处理过程。即从各种不同的数据源提取(E)数据,并转换(T)成能满足业务需要的数据,最后将其加载(L)到数据库。

    F

    故障切换(Failover) – 当系统中某个服务器发生故障时,能自动地将运行任务切换到另一个可用服务器或节点上。

    容错设计(Fault-tolerant design) – 一个支持容错设计的系统应该能够做到当某一部分出现故障也能继续运行。

    G

    游戏化(Gamification) – 在其他非游戏领域中运用游戏的思维和机制,这种方法可以以一种十分友好的方式进行数据的创建和侦测,非常有效。

    图形数据库(Graph Databases) – 运用图形结构(例如,一组有限的有序对,或者某种实体)来存储数据,这种图形存储结构包括边缘、属性和节点。它提供了相邻节点间的自由索引功能,也就是说,数据库中每个元素间都与其他相邻元素直接关联。

    网格计算(Grid computing) – 将许多分布在不同地点的计算机连接在一起,用以处理某个特定问题,通常是通过云将计算机相连在一起。

    H

    Hadoop – 一个开源的分布式系统基础框架,可用于开发分布式程序,进行大数据的运算与存储。

    Hadoop数据库(HBase) – 一个开源的、非关系型、分布式数据库,与Hadoop框架共同使用。

    HDFS – Hadoop分布式文件系统(Hadoop Distributed File System);是一个被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。

    高性能计算(HPC: High-Performance-Computing) – 使用超级计算机来解决极其复杂的计算问题。

    I

    内存数据库(IMDB: In-memory) – 一种数据库管理系统,与普通数据库管理系统不同之处在于,它用主存来存储数据,而非硬盘。其特点在于能高速地进行数据的处理和存取。

    物联网(Internet of Things) – 在普通的设备中装上传感器,使这些设备能够在任何时间任何地点与网络相连。

    J

    法律上的数据一致性(Juridical data compliance) – 当你使用的云计算解决方案,将你的数据存储于不同的国家或不同的大陆时,就会与这个概念扯上关系了。你需要留意这些存储在不同国家的数据是否符合当地的法律。

    K

    键值数据库(KeyValue Databases) – 数据的存储方式是使用一个特定的键,指向一个特定的数据记录,这种方式使得数据的查找更加方便快捷。键值数据库中所存的数据通常为编程语言中基本数据类型的数据。

    L

    延迟(Latency) – 表示系统时间的延迟。

    遗留系统(Legacy system) – 是一种旧的应用程序,或是旧的技术,或是旧的计算系统,现在已经不再支持了。

    负载均衡(Load balancing) – 将工作量分配到多台电脑或服务器上,以获得最优结果和最大的系统利用率。

    位置信息(Location data) – GPS信息,即地理位置信息。

    日志文件(Log file) – 由计算机系统自动生成的文件,记录系统的运行过程。

    M

    M2M数据(Machine2Machine data) – 两台或多台机器间交流与传输的内容。

    机器数据(Machine data) – 由传感器或算法在机器上产生的数据。

    机器学习(Machine learning) – 人工智能的一部分,指的是机器能够从它们所完成的任务中进行自我学习,通过长期的累积实现自我改进。

    MapReduce – 是处理大规模数据的一种软件框架(Map: 映射,Reduce: 归纳)。

    大规模并行处理(MPP: Massively Parallel Processing) – 同时使用多个处理器(或多台计算机)处理同一个计算任务。

    元数据(Metadata) – 被称为描述数据的数据,即描述数据数据属性(数据是什么)的信息。

    MongoDB – 一种开源的非关系型数据库(NoSQL database)。

    多维数据库(Multi-Dimensional Databases) – 用于优化数据联机分析处理(OLAP)程序,优化数据仓库的一种数据库。

    多值数据库(MultiValue Databases) – 是一种非关系型数据库(NoSQL), 一种特殊的多维数据库:能处理3个维度的数据。主要针对非常长的字符串,能够完美地处理HTML和XML中的字串。

    N

    自然语言处理(Natural Language Processing) – 是计算机科学的一个分支领域,它研究如何实现计算机与人类语言之间的交互。

    网络分析(Network analysis) – 分析网络或图论中节点间的关系,即分析网络中节点间的连接和强度关系。

    NewSQL – 一个优雅的、定义良好的数据库系统,比SQL更易学习和使用,比NoSQL更晚提出的新型数据库。

    NoSQL – 顾名思义,就是“不使用SQL”的数据库。这类数据库泛指传统关系型数据库以外的其他类型的数据库。这类数据库有更强的一致性,能处理超大规模和高并发的数据。

    O

    对象数据库(Object Databases) – (也称为面象对象数据库)以对象的形式存储数据,用于面向对象编程。它不同于关系型数据库和图形数据库,大部分对象数据库都提供一种查询语言,允许使用声明式编程(declarative programming)访问对象。

    基于对象图像分析(Object-based Image Analysis) – 数字图像分析方法是对每一个像素的数据进行分析,而基于对象的图像分析方法则只分析相关像素的数据,这些相关像素被称为对象或图像对象。

    操作型数据库(Operational Databases) – 这类数据库可以完成一个组织机构的常规操作,对商业运营非常重要,一般使用在线事务处理,允许用户访问 、收集、检索公司内部的具体信息。

    优化分析(Optimization analysis) – 在产品设计周期依靠算法来实现的优化过程,在这一过程中,公司可以设计各种各样的产品并测试这些产品是否满足预设值。

    本体论(Ontology) – 表示知识本体,用于定义一个领域中的概念集及概念之间的关系的一种哲学思想。(译者注: 数据被提高到哲学的高度,被赋予了世界本体的意义,成为一个独立的客观数据世界)。

    异常值检测(Outlier detection) – 异常值是指严重偏离一个数据集或一个数据组合总平均值的对象,该对象与数据集中的其他它相去甚远,因此,异常值的出现意味着系统发生问题,需要对此另加分析。

    P

    模式识别(Pattern Recognition) – 通过算法来识别数据中的模式,并对同一数据源中的新数据作出预测。

    P字节(PB: Petabytes) – 约等于1000 TB(terabytes), 约等于1百万 GB (gigabytes)。欧洲核子研究中心(CERN)大型强子对撞机每秒产生的粒子个数就约为1 PB。

    平台即服务(PaaS: Platform-as-a-Service) – 为云计算解决方案提供所有必需的基础平台的一种服务。

    预测分析(Predictive analysis) – 大数据分析方法中最有价值的一种分析方法,这种方法有助于预测个人未来(近期)的行为,例如某人很可能会买某些商品,可能会访问某些网站,做某些事情或者产生某种行为。通过使用各种不同的数据集,例如历史数据,事务数据,社交数据,或者客户的个人信息数据,来识别风险和机遇。

    隐私(Privacy) – 把具有可识别出个人信息的数据与其他数据分离开,以确保用户隐私。

    公共数据(Public data) – 由公共基金创建的公共信息或公共数据集。

    Q

    数字化自我(Quantified Self) – 使用应用程序跟踪用户一天的一举一动,从而更好地理解其相关的行为。

    查询(Query) – 查找某个问题答案的相关信息。

    R

    再识别(Re-identification) – 将多个数据集合并在一起,从匿名化的数据中识别出个人信息。

    回归分析(Regression analysis) – 确定两个变量间的依赖关系。这种方法假设两个变量之间存在单向的因果关系(译者注:自变量,因变量,二者不可互换)。

    RFID – 射频识别; 这种识别技术使用一种无线非接触式射频电磁场传感器来传输数据。

    实时数据(Real-time data) – 指在几毫秒内被创建、处理、存储、分析并显示的数据。

    推荐引擎(Recommendation engine) – 推荐引擎算法根据用户之前的购买行为或其他购买行为向用户推荐某种产品。

    路径分析(Routing analysis) – 针对某种运输方法通过使用多种不同的变量分析从而找到一条最优路径,以达到降低燃料费用,提高效率的目的。

    S

    半结构化数据(Semi-structured data) – 半结构化数据并不具有结构化数据严格的存储结构,但它可以使用标签或其他形式的标记方式以保证数据的层次结构。

    情感分析(Sentiment Analysis) – 通过算法分析出人们是如何看待某些话题。

    信号分析(Signal analysis) – 指通过度量随时间或空间变化的物理量来分析产品的性能。特别是使用传感器数据。

    相似性搜索(Similarity searches) – 在数据库中查询最相似的对象,这里所说的数据对象可以是任意类型的数据。

    仿真分析(Simulation analysis) – 仿真是指模拟真实环境中进程或系统的操作。仿真分析可以在仿真时考虑多种不同的变量,确保产品性能达到最优。

    智能网格(Smart grid) – 是指在能源网中使用传感器实时监控其运行状态,有助于提高效率。

    软件即服务(SaaS: Software-as-a-Service) – 基于Web的通过浏览器使用的一种应用软件。

    空间分析(Spatial analysis) – 空间分析法分析地理信息或拓扑信息这类空间数据,从中得出分布在地理空间中的数据的模式和规律。

    SQL – 在关系型数据库中,用于检索数据的一种编程语言。

    结构化数据(Structured data) -可以组织成行列结构,可识别的数据。这类数据通常是一条记录,或者一个文件,或者是被正确标记过的数据中的某一个字段,并且可以被精确地定位到。

    T

    T字节(TB: Terabytes) – 约等于1000 GB(gigabytes)。1 TB容量可以存储约300小时的高清视频。

    时序分析(Time series analysis) – 分析在重复测量时间里获得的定义良好的数据。分析的数据必须是良好定义的,并且要取自相同时间间隔的连续时间点。

    拓扑数据分析(Topological Data Analysis) – 拓扑数据分析主要关注三点:复合数据模型、集群的识别、以及数据的统计学意义。

    交易数据(Transactional data) – 随时间变化的动态数据。

    透明性(Transparency) – 消费者想要知道他们的数据有什么作用、被作何处理,而组织机构则把这些信息都透明化了。

    U

    非结构化数据(Un-structured data) – 非结构化数据一般被认为是大量纯文本数据,其中还可能包含日期,数字和实例。

    V

    价值(Value) – (译者注:大数据4V特点之一) 所有可用的数据,能为组织机构、社会、消费者创造出巨大的价值。这意味着各大企业及整个产业都将从大数据中获益。

    可变性(Variability) – 也就是说,数据的含义总是在(快速)变化的。例如,一个词在相同的推文中可以有完全不同的意思。

    多样(Variety) – (译者注:大数据4V特点之一) 数据总是以各种不同的形式呈现,如结构化数据,半结构化数据,非结构化数据,甚至还有复杂结构化数据。

    高速(Velocity) – (译者注:大数据4V特点之一) 在大数据时代,数据的创建、存储、分析、虚拟化都要求被高速处理。

    真实性(Veracity) – 组织机构需要确保数据的真实性,才能保证数据分析的正确性。因此,真实性(Veracity)是指数据的正确性。

    可视化(Visualization) – 只有正确的可视化,原始数据才可被投入使用。这里的“可视化”并非普通的图型或饼图,可视化指是的复杂的图表,图表中包含大量的数据信息,但可以被很容易地理解和阅读。

    大量(Volume) – (译者注:大数据4V特点之一) 指数据量,范围从Megabytes至Brontobytes。

    W

    天气数据(Weather data) – 是一种重要的开放公共数据来源,如果与其他数据来源合成在一起,可以为相关组织机构提供深入分析的依据。

    X

    XML数据库(XML Databases) – XML数据库是一种以XML格式存储数据的数据库。XML数据库通常与面向文档型数据库相关联,开发人员可以对XML数据库的数据进行查询,导出以及按指定的格式序列化。

    Y

    Y字节 (Yottabytes) – 约等于1000 ZB (Zettabytes), 约等于250万亿张DVD的数据容量。现今,整个数字化宇宙的数据量为1 YB, 并且将每18年翻一番。

    Z

    Z字节 (ZB: Zettabytes) – 约等于1000 EB (Exabytes), 约等于1百万 TB。据预测,到2016年全球范围内每天网络上通过的信息大约能达到1 ZB。

    附:存储容量单位换算表:

    1 Bit(比特) = Binary Digit

    8 Bits = 1 Byte(字节)

    1,024 Bytes = 1 Kilobyte

    1,024 Kilobytes = 1 Megabyte

    1,024 Megabytes = 1 Gigabyte

    1,024 Gigabytes = 1 Terabyte

    1,024 Terabytes = 1 Petabyte

    1,024 Petabytes = 1 Exabyte

    1,024 Exabytes = 1 Zettabyte

    1,024 Zettabytes = 1 Yottabyte

    1,024 Yottabytes = 1 Brontobyte

    1,024 Brontobytes = 1 NonaByte

    1,024 NonaBytes = 1 DoggaByte

    1,024 DoggaBytes = 1 CorydonByte

    展开全文
  • 大数据常见术语

    2017-07-07 13:59:58
    摘要: 大数据常见术语表 大数据的出现带来了许多新的术语,但这些术语往往比较难以理解。因此,我们通过本文给出一个常用的大数据术语表,抛砖引玉,供大家深入了解。其中部分定义参考了相应的博客文章。当然,这...
  • php常见术语

    千次阅读 2017-05-23 12:06:01
    php是Hypertext Preprocessor的缩写,php是一内嵌 HTML的脚本语言。PHP的独特语法混合了c,java和perl及PHP式的新语法。这门语言的的目标是让网页开发人员快速的写出动态的网页。    什么是PHPer?  ...
  • 浅析几种常见RAID模式 RAID模式有很多种,不过最常见的只有RAID 0/1/5/10几种,不同工作模式有很大差异,下面先为大家介绍一下不同模式的区别。 ●RAID 0:速度至上 没有备份 首先我们来看一下对普通玩家意义最大...
  • 机器学习常见术语汇总

    万次阅读 2018-11-15 18:07:35
    函数(例如 ReLU 或 Sigmoid),将前一层所有神经元激活值的加权和输入到一个非线性函数,然后向下一层传递该函数的输出值(典型的非线性)。 AdaGrad 一复杂的梯度下降算法,重新调节每个参...
  • Java技术常见术语及其解释(常见缩写)

    万次阅读 多人点赞 2018-12-20 17:39:37
    Java技术常见术语及其解释(Terminology) Terminology是“术语,专门用语”的意思。Java有太多的缩写词、技术术语,初学者经常被各个术语搞得晕头转向。下边来汇总一下,希望对大家有所帮助。 JRE 与 JDK JRE: ...
  • 常见硬件术语大全

    千次阅读 2005-04-17 15:51:00
    常见硬件术语大全--------------------------------------------------------------- 电脑硬件发展越来越多样化,新的术语、名词层出不穷。特此收集了绝大多数的硬件术语名词,希望可以给大家工作、学习提供方便。...
  • 从A到Z,常见云计算场景下的各类英文与中文名词对照,如IaaS、PaaS、SaaS、AWS、SLA、按需付费、微服务、LAMP、联合数据库、弹性、数据迁移、DevOps、颠覆性技术、云服务提供商、CSP、云管理平台(CMP)、大数据等等...
  • 计算机常见术语解释

    万次阅读 2008-11-14 14:21:00
    一、CPU术语解释 3DNow!: (3D no waiting)AMD公司开发的SIMD指令集,可以增强浮点和多媒体运算的速度,它的指令数为21条。 ALU: (Arithmetic Logic Unit,算术逻辑单元)在处理器之用于计算的那一部分,与其...
  • 常见硬件术语手册

    千次阅读 2004-08-30 20:30:00
    一、CPU术语解释 3DNow!: (3D no waiting)AMD公司开发的SIMD指令集,可以增强浮点和多媒体运算的速度,它的指令数为21条。 ALU: (Arithmetic Logic Unit,算术逻辑单元)在处理器之用于计算的那一部分,与其同级...
  • DDRMC 系列总结(2)zz常见硬件术语之内存术语解释标签 : DDRMC 内存相关术语 内存模块 (Memory Module):提到内存模块是指一个印刷电路板表面上有镶嵌数个记忆体芯片chips,而这内存芯片通常是DRAM芯片,但近来...
  • 几种常用的设计模式介绍

    万次阅读 多人点赞 2013-11-16 18:17:27
    几种常用的设计模式介绍 1.  设计模式的起源 最早提出“设计模式”概念的是建筑设计大师亚力山大Alexander。在1970年他的《建筑的永恒之道》里描述了投计模式的发现,因为它已经存在了千百年之久,而现代才被...
  • 语言学的常见术语

    千次阅读 2013-01-15 00:07:59
    linguistics: 胡壮麟语言学给的定义为:the scientific study of language语言学。 phonetics: 胡壮麟语言学给的定义为:It studies speech sounds, including the production of
  • 软件开发几种模型简介

    千次阅读 2020-05-27 09:08:43
    敏捷开发模式是一90年代起才引起广泛关注的新型软件开发方法,是一应对快速变化需求而产生的一软件开发能力。在实际的应用或者说理解,其名称、理念、过程、术语都有一定的差别,但相对于传统的“非敏捷”...
  • 1.1.2 Spark术语  首先要说Spark的运行模式,Spark有很多模式,最简单的就是单机本地模式,还有单机为分布模式,复杂的则运行在集群,目前能很好地运行在Yarn和Mesos。...Spark的几种运行模式常见输入如下表1-
  • 种常见 Ajax 设计模式

    千次阅读 2012-08-13 17:02:29
    Ajax 应用程序哪一种常见架构模式应用最广泛呢?本文将介绍五种常见 Ajax 设计模式,可以使用它们作为工作的基础。 的确,Ajax 是 Web 2.0 热门术语,所有人都希望将其应用于自己的站点。但是它
  • 种常见设计模式

    万次阅读 2017-01-22 22:37:03
    设计模式 一书将设计模式引入软件社区,该书的作者是 Erich Gamma、Richard Helm、Ralph Johnson 和 John Vlissides Design(俗称 “四人帮”)。所介绍的设计模式背后的核心概念非常简单。经过多年的软件开发实践...
  • Adapter 适配器,应用程序与微型驱动之间的接口。...Channnel 微型驱动管理的一目标类型。每一个通道对应一个设备实例。CSL(Chip Support Library) 由CCS提供的API函数库,用于支持片上、片外设备间的
  • 胖虎想要把学习设计模式的过程记录下来,但是发现一直以来有些专业术语的概念没有弄清楚,这样是很不利于设计模式知识的学习的,所有特写一篇博文来记录一些常见的被误解的术语 我们必须弄清楚:算法,多态性,方法...
  • 1、Hypervisor n. =supervisor超级管理员...这一中间层即祼金属架构("Bare Metal" Architecture)的虚拟层,也是一寄居架构(Hosted Architecture,即在已有操作系统之上安装和运行虚拟化程序),这一层完全隔离硬件和
  • [转]五种常见的PHP设计模式

    千次阅读 2006-11-03 19:00:00
    种常见的PHP设计模式设计模式只是为 Java 架构师准备的 —— 至少您可能一直这样认为。实际上,设计模式对于每个人都非常有用。如果这些工具不是 “架构太空人” 的专利,那么它们又是什么?为什么说它们在 应用...
  • Bluetooth深入(一)术语和说明

    千次阅读 2012-07-18 11:56:40
    术语: HFP(Hands-free Profile)耳机模式: 让蓝牙设备可以控制电话,如接听、挂断、拒接、语音拨号等,拒接、语音拨号要视蓝牙耳机及电话是否支持。 HSP(Handset Profile)耳机模式 用于支持蓝牙耳机与...
  • 软件性能指标的个主要术语

    千次阅读 2011-09-03 20:31:37
     通过对软件测试性能测试的初步了解,总结软件性能指标术语:响应时间、并发用户数,吞吐量,性能计数器,TPS,HPS。在使用性能测试工具进行测试时,还会接触到“思考时间(Think Time)”的概念。供以后...
  • 漏洞术语

    千次阅读 2020-01-13 21:01:55
    漏洞术语 1.Unicode漏洞 Unicode是一个16位的字符集,他可以移植到所有主要的计算机平台并且覆盖几乎整个世界。微软IIS4和5都存在利用扩展Unicode字符取代“/”“\”而能利用“…/”目录便利的漏洞。未经授权的...
  • 种常见的 PHP 设计模式

    千次阅读 2007-01-23 22:05:00
    设计模式只是为 Java 架构师准备的 —— 至少您可能一直这样认为。实际上,设计模式对于每个人都非常有用。如果这些工具不是 “架构太空人” 的专利,那么它们又是什么?为什么说它们在 PHP 应用程序非常有用?...
  • 计算机专业术语及行业术语

    千次阅读 2019-05-20 15:14:27
    java 行业术语 POJO(Plain Ordinary Java Object)简单的Java对象,实际就是普通JavaBeans,是为了避免和EJB混淆所创造的简称 B2B行业术语 sop fbp

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 53,111
精华内容 21,244
关键字:

关系模型中常见的几种术语