精华内容
下载资源
问答
  • private修饰的内容是对内实现的封装,如果“公开”会增加维护成本。 5、protected和默认的访问控制 用protected修饰的成员变量和方法可以被子类及同一个包中的类使用。 默认访问控制即不书写任何...

    1、包的概念

    package语句
    

    定义类时需要指定类的名称,但如果仅仅将类名作为类的唯一标识,则不可避免的出现命名冲突的问题,这会给组件复用及团队间的合作造成很大的麻烦。
    在java语言中,用包(package)的概念来解决命名冲突的问题,在定义一个类时,除了定义类的名称一般还要指定一个包名。
    package语句必须写在java源文件的最开始,在定义类之前。

        包名建议的命名规则
    
        域名反写.项目名称.模块名称
        com.cnasir.www
    

    2、import语句

    访问一个类时需要使用该类的全称,但这样的书写过于繁琐;
    可以通过import语句对类的全称进行声明。
    通过了import语句声明了类的全称后,可以直接使用类名。

    3、封装

    对外提供可调用的、稳定的功能
    封装容易变化的、具体的实现细节,外界不可访问,这样的意义在于:
    · 降低代码出错的可能性,便于维护
    · 当内部的实现细节改变时,只要保证对外的功能定义不变,其他的模块就不会因此而受到牵连。

    4、public和private

    private修饰的成员变量及方法仅仅只能在本类中调用;
    public修饰的成员变量和方法可以在任何地方调用。
    public修饰的内容是对外提供可以被调用的功能,需要相对稳定;private修饰的内容是对内实现的封装,如果“公开”会增加维护成本。

    5、protected和默认的访问控制

    用protected修饰的成员变量和方法可以被子类及同一个包中的类使用。
    默认访问控制即不书写任何访问控制符。默认访问控制的成员变量和方法可以被同一个包中的类使用。

    6、访问控制符修饰类

    对于类的修饰可以用public和默认方式。public修饰的类可被任何一个类使用;默认访问控制的类只可以被同一个包中的类使用。
    protected和private可以用于修饰内部类。

    展开全文
  • 成本

    千次阅读 2011-05-08 17:34:00
    成本:拼音:cheng ben 英语:cost  总成本:英语:total cost  1、CCA中国成本协会发布的CCA2101:2005《成本管理体系 术语》标准中第2.1.2条中对成本术语的定义是:  —— 为过程增值和...

    成本:拼音:cheng ben 英语:cost
      总成本:英语:total cost
      1、CCA中国成本协会发布的CCA2101:2005《成本管理体系 术语》标准中第2.1.2条中对成本术语的定义是:
      —— 为过程增值和结果有效已付出或应付出的资源代价。
      注:应付出的资源代价:是指应该付出,但目前还未付出,而且迟早要付出的资源代价。
      注:资源代价是总合的概念。
      注:资源:是指凡是能被人所利用的物质。在一个组织中资源一般包括:人力资源、物力资源、财力资源和信息资源等。
      注:术语“成本”可以使用形容词,如:用“多、少”或“高、低”来修饰。
      注:这里的成本是广义的概念,不是狭义的概念。
      2、美国会计学会(AAA)所属的“成本与标准委员会”对成本的定义是:
      为了达到特定目的而发生或未发生的价值牺牲,它可用货币单位加以衡量。
      3、《成本与管理会计》(第11版)中对成本下的定义是:
      为了达到某一种特定目的而耗用或放弃的资源。
      成本(cost)
      成本,是指生产活动中所使用的生产要素的价格,成本也称生产费用。
    [编辑本段]什么是成本?
      成本是商品经济的价值范畴,是商品价值的组成部分。人们要进行生产经营活动或达到一定的目的,就必须耗费一定的资源(人力、物力和财力),其所费资源的货币表现及其对象化称之为成本。
      并且随着商品经济的不断发展,成本概念的内涵和外延都处于不断地变化发展之中。它有以下几方面的含义:
      1.成本属于商品经济的价值范畴。即成本是构成商品价值的重要组成部分,是商品生产中生产要素耗费的货币表现;
      2.成本具有补偿的性质。它是为了保证企业再生产而应从销售收入中得到补偿的价值;
      3.成本本质上是一种价值牺牲。它作为实现一定的目的而付出资源的价值牺牲,可以是多种资源的价值牺牲,也可以是某些方面的资源价值牺牲;甚至从更广的含义看,成本是为达到一种目的而放弃另一种目的所牺牲的经济价值,在经营决策中所用的机会成本就有这种含义。
    [编辑本段]成本的经济性质
      马克思曾科学地指出了成本的经济性质:“按照资本主义方式生产的每一个商品W的价值,用公式来表示是W=C+V+M。如果我们从这个产品价值中减去剩余价值M,那么,在商品剩下来的,只是一个在生产要素上耗费的资本价值C+V的等价物或补偿价值”。“商品价值的这个部分,即补偿所消耗的生产资料价格和所使用的劳动力价格的部分,只是补偿商品使资本家自身耗费的东西,所以对资本家来说,这就是商品的成本价格”(《资本论》第3卷。《马克思恩格斯全集》第25 卷,人民出版社1974年版,第30页)。马克思的这段话,第一,指出的只是产品成本的经济实质,并不是泛指一切成本;第二,从耗费角度指明了产品成本的经济实质是C+V,由于C+V的价值无法计量,人们所能计量和把握的成本,实际上是C+V的价格即成本价格;第三,从补偿角度指明了成本的补偿商品生产中使资本自身消耗的东西,实际上是说明了对成本对再生产的作用。也就是讲产品成本是企业维持简单再生产的补偿尺度,由此也可见,在一定的产品销售量和销售价格的条件下,产品成本水平的高低,不但制约着企业的生存,而且决定着剩余价值M即利润的多少,从而制约着企业再生产扩大的可能性。马克思对于成本的考察,既看到耗费,又重视补偿,这是对成本性质完整的理解。在商品生产条件下,耗费和补偿是对立统一的。任何耗费总是个别生产者的事,而补偿则是社会的过程。耗费要求得到补偿和能否得到补偿是两个不同的事情。这就迫使商品生产者不得不重视成本,努力加强管理,力求以较少的耗费来寻求补偿,并获取最大限度的利润。
      也有的认为:我国处在社会主义初级阶段,允许多种所有制的生产主体同时并存;成本的涵义应与目前的经济体制相适应,采用如下的多种理论成本。生产主体是小商品生产者的,只有生产资料需要购买即势支费用,所需要的劳动就是生产者本身,不需付给资,可以用C作为其理论成本;生产主体是国有企业的,以社会作为主体,商品生产中物化劳动和活劳动的耗费都可看作社会的耗费,是社会生产成本,可以用C+V+M作为其理论成本;其他生产主体一般用C+V作为理论成本。
    [编辑本段]成本的构成内容
      成本的构成内容要服从管理的需要,并且随着管理的发展而发展。国家规定成本的构成内容主要包括:
      ①原料、材料、燃料等费用,表现商品生产中已耗费的劳动对象的价值;
      ②折旧费用,表现商品生产中已耗费的劳动对象的价值;
      ③工资,表现生产者的必要劳动所创造的价值。
      在实际工作中,为了促使企业厉行节约,减少损失,加强企业的经济责任,对于一些不形成产品价值的损失性支出(如工业企业里的废品损失、停工损失等),也列入产品成本之中。此外,对某些应从为社会创造的价值中进行分配的部分(如财产的保险费用等)也列入产品成本。这说明产品成本的实际内容,一方面要求反映成本的客观经济实质,另一方面又要按照国家的分配方针和财务管理制度规定,把某些不属于C+V的内容列入成本,而把某些属于活劳动耗费性质的费用列为营业外支出或从留利中开支。
      成本作为资本耗费,发生于生产过程,而补偿价值的生产成果的分配,属于分配领域的范畴;作为商品的所有者的经营者为首,常常会对分配领域的一些支出,列作生产成本,导致实际补偿价值和已经消耗的C+V+不一致。
    [编辑本段]成本的不同涵义
      (1)成本是生产和销售一定种类与数量产品以耗费资源用货币计量的经济价值。企业进行产品生产需要消耗生产资料和劳动力,这些消耗在成本中用货币计量,就表现为材料费用、折旧费用、工资费用等。企业的经营活动不仅包括生产,也包括销售活动,因此在销售活动中所发生的费用,也应计入成本。同时,为了管理生产所发生的费用,也应计入成本。同时,为了管理生产经营活动所发生的费用也具有形成成本的性质。
      (2)成本是为取得物质资源所需付出的经济价值。企业为进行生产经营活动,购置各种生产资料或采购商品,而支付的价款和费用,就是购置成本或采购成本。随着生产经营活动的不断进行,这些成本就转化为生产成本和销售成本。
      (3)成本是为达到一定目的而付出或应付出资源的价值牺牲,它可用货币单位加以计量。
      (4)成本是为达到一种目的而放弃另一种目的所牺牲的经济价值。
    [编辑本段]成本的分类
      (1)按概念形成可分为理论成本和应用成本。
      (2)按应用情况可分为财务成本和管理成本。
      (3)按产生依据可分为实际成本和估计成本。
      (4)按发生情况可分为原始成本和重置成本。
      (5)按形成时间可分为历史成本和未来成本。
      (6)按计量单位可分为单位成本和总成本。
      (7)按计算根据可分为个别成本和平均成本。
      (8)按包括的范围可分为全部成本和部分成本。
      (9)按生产过程中的顺序关系可分为车间成本和工厂成本。
      (10)按生产经营范围,可分为生产成本和销售成本。
      (11)按与收益的关系可分为已耗成本和未耗成本。
      (12)按与决策的关系,可分为相关成本和非相关成本。
      (13)按与现金支出关系,可分为付现成本和沉没成本。
      (14)按与计划的关系,可分为计划成本和预计成本。
      (15)按数量变化关系,可分为边际成本、增量成本和差别成本。
      (16)按可否免除,可分为可避免成本和不可避免成本。
      (17)按可否推迟发生,可分为可递延成本和预计成本。
      (18)按发生可否加以控制,可分为可控成本与不可控成本。
      (19)按性态,可分为变动成本和固定成本。
      (20)按发生与产品生产的关系,可分为直接成本和间接成本。
      (21)按产品成本的构成情况,可分为主要成本和加工成本。
      为了便于进行成本管理,还可运用其他一些成本分类概念,如机会成本、责任成本、定额成本、目标成本、标准成本等等。
    [编辑本段]成本在经济活动中的重要作用
      (1)成本是补偿生产耗费的尺度。
      (2)成本是制订产品价格的基础。
      (3)成本是计算企业盈亏的依据。
      (4)成本是企业进行决策的依据。
      (5)成本是综合反映企业工作业绩的重要指标。
      产品在生产中所耗费的各项费用之和。
      商品价格包括物质消耗支出(c),劳动报酬支出(v)和盈利(m)3部分。前两部分c+v之和即“成本”,必须在商品销售中得到补偿,它是商品简单再生产得以进行的必要条件,也是制定商品价格的最低经济界限。在计划和管理中,对成本构成内容有两种划分法:①按费用的经济内容。分为原材料、辅助材料、燃料和动力、工资及工资附加费、固定资产折旧费、其他费用等。②按费用的经济用途。分为原材料、燃料和动力、工资及工资附加费、废品损失费、车间经费、企业管理费等。为了加强对成本管理工作和计划工作,中国于1984年3月发布《国营企业成本管理条例》。中国企业实际成本一般按该条例的有关规定划分项目并进行核算,它与理论成本略有出入。
      成本按不同角度分类有各种形态:计划成本、报告成本、个别成本、社会成本、试制成本、正式生产成本、正常生产成本、非正常生产成本、设计成本、预测成本等,各自体现不同范围或不同含义的成本,各有不同的作用。如正常生产的社会成本是制定价格的主要依据之一,非正常生产成本或个别成本一般不能作为定价依据,而仅仅是本企业考核自身盈亏的数据之一。
      成本作为生产中的各项费用支出,是商品生产的“投入”。借助成本可以反映国家和企业经济活动中“投入”和“产出”的关系。它也是衡量企业生产经营管理水平的一项综合指标,因为它可以反映企业劳动生产率高低,原料和劳动力的消耗状况,设备利用率,生产技术和经营管理水平高低。在产品价格不变的情况下,成本下降,利润就可以提高,企业经济效益就可以增加,相对的社会积累就可以增加,为逐步降低物价和提高人民生活创造条件。降低成本的主要途径是:改善经营管理,采用新技术,提高设备利用率,减少固定资产的消耗,节约原材料、燃料、辅助材料,提高劳动生产率等。
      成本是为过程增值或结果有效已付出或应付出的资源代价(CCA2101:2005第2.1.1条)。
      注1:“应付出的资源代价”是指应该付出、但目前还未付出、而且迟早要付出的资源代价。
      注2:“资源代价”是一个总合的概念。
      注3:“资源”一般包括:人力、物力、财力和信息等资源。
      注4:术语“成本”可使用形容词,如用高、低或多、少来修饰。
      注5:这里所说的“成本”是广义的成本,不是狭义的成本。
      成本定义的关键词是“付出”的“代价”,这个代价就是“资源”的价值牺牲。成本法则告诉我们“成本一定消耗资源;不消耗资源的成本不存在。”资源对一个组织来说一般包括:人力资源、物力资源(设施、设备和材料等)、财力资源和信息资源等。这些资源都是构成成本的资源,这种资源代价应是一个总和的概念,是全部的,不是部分的。作为成本一定消耗资源,不消耗资源的成本不存在。那么,为什么要消耗资源?为什么要付出代价?就是为了“过程增值或结果有效”这一成本目的。天下没有免费的午餐,人们无论做什么,都要付出一定的代价。
      人们在生产和生活过程中不断地追求过程的增值或结果有效,并为此付出代价,这种代价是组织或个人为一定目的所付出的,这就是成本的目的性。因为,人们发生成本的本意一般都是有目的的。成本法则告诉我们“成本一定在过程中发生”。如生产成本是在生产过程中发生的;销售成本是在销售过程中发生的。有些组织的过程不直接增加经济价值(如政府的行政管理过程)。那么,它们所发生的成本是为了结果的有效。任何组织或个人的活动其过程都是为了增值,都在追求结果的有效性。过程是将输入转化为输出的系统。过程是一个广义的概念,任何一个过程都有输入和输出,输入是实施过程的基础、前提和条件;输出是完成过程的结果,输入和输出之间是一种增值转换,过程的目的就是为了增值,不增值的过程没有意义。为了实现输入和输出之间的增值转换要投入必要的资源和活动。所以,我们说的成本是在过程中(输入和输出转化中)的一组资源消耗的总和,是换取过程增值或结果有效的代价。
      已经付出的资源代价当然是成本;应该付出的,但还没有付出、而且迟早要付出的资源代价也应该理解为成本。如预算和成本计划中所规定的预计成本,我们也应该理解为成本的范畴。
      这里所说的“成本”是广义的成本,是一个总合的概念,主要是为成本管理服务的。“成本”在会计学中有不同的解释。
      成本,企业所得税法术语,即生产、经营成本,是指纳税人为生产、经营商品和提供劳务等所发生的各项直接费用和各项间接费用。
      企业会计制度中将成本、费用分别定义为:成本是指企业为生产产品、提供劳务而发生的各种耗费;费用是指企业为销售商品、提供劳务等日常活动所发生的经济利益的流出。
      费用和成本是两个独立的概念,但两者又有一定的关系。两者的联系在于,成本是按一定对象归集的费用,是对象化了的费用。也就是说,生产成本是针对于一定的成本计算对象(如某产品、某类产品、某批产品、某生产步骤等)对当期发生的费用进行归集而形成的,期末当期已销产品的成本结转计入当期的费用中。两者的区别是,费用是资产的耗费,它是针对一定的期间而言的,而与生产哪一种产品无关;成本与一定种类和数量的产品或商品相联系,而不论发生在哪一个会计期间。

    展开全文
  • 形容

    2019-05-27 21:46:19
    形容 adjective修饰名词。形容置于动词be之后或名词之前。 动词’be’之后的形容 ...用副词 really 加强形容修饰程度。 Brazil is really big. 巴西真的很大。 Salvador is really exciting. 萨尔...

    形容词

    adjective修饰名词。形容词置于动词be之后或名词之前。

    动词’be’之后的形容词

    Paris is beautiful.				巴黎很美。
    
    London is expensive.			伦敦生活成本高昂。
    

    用副词 really 加强形容词的修饰程度。

    Brazil is really big.			巴西真的很大。
    
    Salvador is really exciting.	萨尔瓦多真的很令人振奋。
    

    当形容词出现在单数名词前面时把冠词a 或 an置于形容词之前。A 和 an 意味着 ‘one of something.’ 在以元音字母发音a, e, i, o 或 u开头的词之前用an。

    冠词+形容词+名词

    Paris is a beautiful city!			巴黎是一个美丽的城市。
    
    Brazil is a big country.			巴西是一个很大的国家。
    
    Salvador is an exciting city.		萨尔瓦多是一座令人振奋的城市。
    

    当您学习形容词时,请试着同时学习它们的反义词。例子如下。

    exciting	boring		兴奋的 - 无聊的
    
    beautiful	ugly		美丽的 - 丑陋的
    
    big	small				大的 - 小的
    
    wonderful	terrible	美好的 - 糟糕的
    
    expensive	cheap		昂贵的 - 便宜的
    
    quiet	noisy			安静 嘈杂
    
    展开全文
  • NLP领域的ImageNet时代:嵌入已死,语言模型当立 https://www.toutiao.com/a6742137243487437316/ NLP领域的ImageNet时代:嵌入已死,语言模型当立 选自the Gradient,作者:Sebastian Ruder,机器之心...

    NLP领域的ImageNet时代:词嵌入已死,语言模型当立

     

     

    https://www.toutiao.com/a6742137243487437316/

     

    NLP领域的ImageNet时代:词嵌入已死,语言模型当立

    选自the Gradient,作者:Sebastian Ruder,机器之心编译。

    计算机视觉领域常使用在 ImageNet 上预训练的模型,它们可以进一步用于目标检测、语义分割等不同的 CV 任务。而在自然语言处理领域中,我们通常只会使用预训练词嵌入向量编码词汇间的关系,因此也就没有一个能用于整体模型的预训练方法。Sebastian Ruder 表示语言模型有作为整体预训练模型的潜质,它能由浅到深抽取语言的各种特征,并用于机器翻译、问答系统和自动摘要等广泛的 NLP 任务。Ruder 同样展示了用语言模型做预训练模型的效果,并表示 NLP 领域中的「ImageNet」终要到来。

    自然语言处理(NLP)领域正在发生巨变。

    长期以来,词向量一直是自然语言处理的核心表征技术。然而,其统治地位正在被一系列令人振奋的新挑战所动摇,如:ELMo、ULMFiT 及 OpenAI transformer。这些方法因证明预训练的语言模型可以在一大批 NLP 任务中达到当前最优水平而吸引了很多目光。这些方法预示着一个分水岭:它们在 NLP 中拥有的影响,可能和预训练的 ImageNet 模型在计算机视觉中的作用一样广泛。

    由浅入深的预训练

    预训练的词向量给 NLP 带来了很大的提高。2013 年提出的语言建模近似——word2vec 凭借其效率和易用性在硬件速度慢得多且深度学习模型没有得到广泛支持的时代得到采用。此后,进行 NLP 项目的标准方式基本保持不变:通过 word2vec 和 GloVe 等算法对大量未标记数据进行预处理的词嵌入被用于初始化神经网络的第一层,其它层随后在特定任务的数据上进行训练。在大多数训练数据有限的任务中,这种方法帮助提高了两到三个百分点。尽管这些预训练的词嵌入颇具影响力,但它们也有局限:它们仅包含模型第一层的先验知识——网络的其余部分还需要从头开始训练。

    word2vec 捕捉到的关系。(来源:TensorFlow tutorial)

    word2vec 及其它相关方法是为了实现效率而牺牲表达性的浅层方法。使用词嵌入就像利用仅编码图像边缘信息的预训练表征初始化计算机视觉模型:它们在许多任务中都能发挥作用,但是却无法捕捉到可能发挥更大作用的高层次信息。利用词向量初始化的模型需要从头开始学习,不仅是学习消除歧义,还要学习从词组成的句子中提取意义。这是语言理解的核心,需要建模语义组合、一词多义、首语重复、长期依赖、一致性、否定等许多复杂的语言现象。因此,用这些浅层表示初始化的 NLP 模型仍然需要大量的示例才能获得良好的性能也就不足为奇了。

    ULMFiT、ELMo 和 OpenAI transformer 最新进展的核心是一个关键的范式转变:从仅仅初始化模型的第一层到用分层表示对整个模型进行预处理。如果学习词向量就像仅学习图像的边,那么这些方法就像学习特征的完整层次,从边到形状,再到高级语义概念。

    有趣的是,预训练整个模型以获得初级和高级特征在计算机视觉社区中已经采用好几年了。大多数情况下,预训练模型都是在 ImageNet 大型数据集上学习分类图像而训练出来的。ULMFiT、ELMo 和 OpenAI transformer 已经为 NLP 社区带来了自然语言中的「ImageNet」,这种任务能允许模型学习语言的高级细微差别。这就类似于 ImageNet 允许预训练 CV 模型以学习普遍意义的图像特征。在本文后面的部分中,我们将语言建模与 ImageNet 计算机视觉建模做类比,并展示为什么这种方法看起来会如此有前景。

    ImageNet

    ImageNet 大规模视觉识别挑战赛。(来源:Xavier Giro-o-Nieto)

    ImageNet 对机器学习研究具有重要影响。该数据集最初发布于 2009 年,并迅速演变为 ImageNet 大规模视觉识别挑战赛(ILSVRC)。2012 年,Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 提交的深度神经网络超过第二名 41 %,表明深度学习是一种可行的机器学习策略,该深度神经网络可以说是引发了机器学习研究中深度学习的爆发。

    ImageNet 的成功凸显了在深度学习时代,数据至少和算法一样重要。ImageNet 数据集不仅使 2012 年非常重要的深度学习能力展示成为可能,而且在迁移学习中也取得了同样重要的突破:研究人员很快意识到,在 ImageNet 现有模型中学习的权重可用于完全初始化其它数据集的模型,并显著提高性能。这种「微调」方法允许在每个类别只有一个正面示例的情况下实现良好性能(Donahue et al., 2014)。

    在 ILSVRC-2012 上训练的特征泛化到 SUN-397 数据集上。(来源:Donahue et al., 2014)

    在目标识别、语义分割、人体姿态估计和视频识别等任务上,预处理的 ImageNet 模型已用来实现最优水平。与此同时,它们还使得 CV 得以应用于训练示例数量少、注释成本高的领域。在 CV 中,在 ImageNet 上通过预处理进行迁移学习实际上非常有效,以至于现在不使用它会被认为是蛮干(Mahajan et al., 2018)。

    ImageNet 中有什么?

    为了确定用于语言处理的 ImageNet 可能是什么样子,我们首先要确定什么使 ImageNet 有利于迁移学习。以往的研究只揭示了这个问题的一部分:减少每个类的示例数或类别数只会导致性能下降,而细粒度类和更多数据并非总意味着更好的结果。

    与其直接查看数据,更谨慎的做法是探究在数据上训练的模型学到了什么。众所周知,在 ImageNet 上训练的深层神经网络的特征迁移顺序为从第一层到最后一层、从一般任务到特定任务:较低层学习建模低级特征,如边缘,而较高层学习建模高级概念,如图案和整个部分或对象,如下图所示。重要的是,关于物体边缘、结构和视觉组成的知识与许多 CV 任务相关,这就揭示了为什么这些层会被迁移。因此,类似 ImageNet 的数据集的一个关键属性是鼓励模型学习可以泛化到问题域中新任务的特征。

    在 ImageNet 上训练的 GoogLeNet 中不同层特征捕获的信息可视化。(来源:Distill)

    除此之外,很难对 ImageNet 上迁移做得如此出色的原因作出进一步的概括。例如,ImageNet 数据集的另一个优点可能是数据的质量。ImageNet 的创建者尽力确保注释的可靠性和一致性。然而,远程监管的工作是一个对比,这表明大量弱标记数据通常是足够的。事实上,Facebook 的研究人员最近显示,他们可以通过预测数十亿个社交媒体图像上的 hashtags 到 ImageNet 上最新的准确性来预先训练模型。

    没有任何更具体的见解,但我们有两个关键的需求:

    1. 像 ImageNet 一样的数据集要足够大,即大约有数百万个训练示例。
    2. 它应该代表学科的问题空间。

    用于语言任务的 ImageNet

    相比于 CV,NLP 的模型通常浅得多。因此对特征的分析大部分聚焦于第一个嵌入层,很少有人研究迁移学习的高层性质。我们考虑规模足够大的数据集。在当前的 NLP 形势下,有以下几个常见任务,它们都有可能用于 NLP 的预训练模型。

    阅读理解是回答关于一个段落自然语言问题的任务。该任务最流行的数据集是 Stanford Question Answering Dataset (SQuAD),其中包含了超过 10 万个问答对,并通过突出显示段落中的几个单词来让模型回答一个问题,如下图所示:

    在 ImageNet 上训练的 GoogLeNet 的不同层特征捕捉到的信息的可视化(Rajpurkar et al., 2016,《SQuAD: 100,000+ Questions for Machine Comprehension of Text》)。

    自然语言推理是识别一段文本和一个假设之间关系(蕴涵、矛盾和中性等)的任务。该任务最流行的数据集是 Stanford Natural Language Inference (SNLI) Corpus,包含 57 万个人类写的英语句子对。该数据集的示例如下图所示。

    SNLI:nlp.stanford.edu/projects/sn…

    SNLI 数据集的示例。(Bowman et al., 2015,A large annotated corpus for learning natural language inference)

    机器翻译,即将文本从一种语言转换到另一种语言,是 NLP 中研究最充分的任务之一。并且多年来,人们为常用的语言对累积了大量的训练数据,例如 WMT2014 的 4 千万个英语法语句子对。下图是两个示例翻译对。

    来自 newstest2014 的法语到英语翻译(Artetxe et al., 2018,Unsupervised Neural Machine Translation)

    选区解析(Constituency parsing)以(线性化)解析树的形式提取句子的句法结构,如下图所示。在过去,人们在该任务中使用数百万个弱标记解析来训练序列到序列的模型(参见《Grammar as a Foreign Language》)。

    解析树和其线性化处理(Vinyals et al., 2015,Grammar as a Foreign Language)

    语言建模(LM)在给定前一个单词的情况下尝试预测下一个单词。已有的基准数据集由大约 10 亿个单词构成,但由于该任务是无监督的,因此可以使用任意数量的单词来训练。下图是由维基百科文章构成的常用 WikiText-2 数据集的示例。

    WikiText-2 语言建模数据集的示例。(来源: Salesforce)

    WikiText-2:einstein.ai/research/th…

    所有这些任务提供或允许收集足够数量的示例来训练。实际上,以上任务(以及很多其它任务例如情感分析、skip-thoughts 和自编码等)都曾在近几个月被用于预训练表征。

    虽然任何的数据都包含某些偏差,人类标注可能无意间引入额外信息,而模型也将会利用这些信息。近期研究表明在诸如阅读理解和自然语言推理这样的任务中的当前最优模型实际上并没有形成深度的自然语言理解,而是注意某些线索以执行粗浅的模式匹配。例如,Gururangan 等人 (2018) 在《Annotation Artifacts in Natural Language Inference Data》中表明,标注者倾向于通过移除性别或数量信息生成蕴涵示例,以及通过引入否定词生成矛盾。只需使用这些线索,模型就可以在未查看前提的情况下在 SNLI 数据集上以 67% 的准确率分类假设。

    因此,更困难的问题应该是:哪个任务在 NLP 中最具代表性?换种说法,哪个任务使我们能学到最多关于自然语言理解的知识或关系?

    语言建模

    为了预测句子中最可能出现的下一个词,模型不仅需要能表达语法,即模型预测下一个词的语法形式必须与其修饰语或动词匹配。同时模型还需要理解语义,此外那些最准确的模型必须包含世界知识或常识等内容。若思考一条不完整的语句「The service was poor, but the food was」,为了预测「yummy」或「delicious」等后续单词,模型不仅需要记住用于描述食物的属性,还需要识别连词「but」以引入相反的语义,因此新的属性应该是与情感词「poor」相对的。

    语言建模是最后提到的一种方法,它已经被证明能为下游任务捕获很多与语言相关的属性,例如长期依赖性关系、层级关系和情感语义等。相比于自编码器等无监督学习任务,语言建模即使只有少量训练数据也能在句法任务上有非常好的表现。

    语言建模最大的优势在于,训练数据可以免费从任何文本语料库获取,因此几乎能获得无限的训练数据。这非常重要,因为 NLP 并不只限于英语,有超过 1000 人使用的语言有 4500 种。作为预训练任务的语言建模为以前语言服务支持不好的语种打开了大门,我们可以直接使用文本数据无监督地训练语言模型,并应用到翻译、信息抽取等任务中。而对于那些无标注数据都不足的稀有语言,多语语言建模能先在多个相关语种上训练,例如跨语言词嵌入等。

    ULMFiT 不同的阶段(Howard and Ruder, 2018)

    到目前为止,我们将语言建模作为预训练任务的论点纯粹是概念性的。但是在最近几个月,我们也获得了一些实验性证明:语言模型的词嵌入(ELMo)、普遍语言模型精调(ULMiT)和 OpenAI Transformer 已经实验性地证明了语言模型能用于预训练任务,正如上图所示的 ULMFiT。这三种方法都使用预训练语言模型来实现当前最优的自然语言处理任务,例如文本分类、问答系统、自然语言推断、指代消歧和序列标注等问题。

    在如下所示的 ELMo 等很多情况中,使用预训练语言模型作为核心的算法在广泛研究的基准上,要比当前最优的结果高 10% 到 20%。ELMo 同时也获得了 NLP 顶会 NAACL-HLT 2018 的最佳论文。最后,这些模型表现出非常高的样本效率,达到最优性能只需要数百样本,甚至可以实现 zero-shot 学习。

    ELMo 在一系列 NLP 任务中取得的进步。(来源:Matthew Peters)

    鉴于这一步取得的变化,NLP 实践者很可能在一年后下载预处理的语言模型,而不是预处理的词嵌入,来用于他们自己的模型中,就像现在大多数 CV 项目的起点是如何预处理 ImageNet 模型一样。

    然而,和 word2vec 相似,语言建模的任务有其天然的局限性:它只是作为真正的语言理解的一个代理,并且单体模型并不足以为特定的下游任务捕捉需要的信息。例如,为了回答关于或跟随故事中人物轨迹的问题,模型需要学习执行指代或消解。此外,语言模型仅能捕捉它们所见过的东西。特定类型的信息,例如大部分常识,很难仅从文本中学习到,并需要整合外部信息。

    一个突出的问题是如何从一个预训练语言模型将信息迁移到下游任务中。有两个主要的范式,一是是否将预训练语言模型作为固定的特征提取器,并将其表征作为特征整合到随机初始化的模型(正如 ELMo 所做的)中;二是是否微调完整的语言模型(如 ULMFiT 所做的)。后者在计算机视觉中很常用,其中训练时会调整模型的最高层或最高的几层。虽然 NLP 模型通常更浅,因此相比对应的视觉模型需要不同的微调技术,但近期的的预训练模型变得更深了。我在下一月将展示 NLP 迁移学习的每个核心组件的作用:包括表达性很强的语言模型编码器(如深度 BiLSTM 或 Transformer),用于预训练的数据的量和本质,以及微调预训练模型使用的方法。

    但理论依据何在?

    到目前为止,我们的分析主要是概念和经验上的,我们仍然难以理解为什么模型先在 ImageNet 上进行训练就能在语言建模上迁移得如此之好。一种更为正式的、考虑预训练模型泛化能力的方式是基于「偏置学习」(bias learning)模型(Baxter, 2000)。假设我们的问题域覆盖特定学科中任务的所有排列,例如计算机视觉——它构成了环境。我们对此提供了许多数据集,允许我们诱导一系列假设空间 H=H'。我们在偏置学习中的目标是找到偏置,即假设空间 H'∈H,它可以在整个(可能是无限的)环境中最大化性能。

    多任务学习中的经验和理论结果(Caruana,1997; Baxter,2000)表明,在足够多的任务中学习到的偏置或许可以推广到在同样环境中未见过的任务上。通过多任务学习,在 ImageNet 上训练的模型可以学习大量的二进制分类任务(每个类一个)。这些任务都来自自然、真实世界的图像空间,可能对许多其他 CV 任务也有代表性。同样,语言模型通过学习大量分类任务(每个词一个)可能诱导出有助于自然语言领域许多其他任务的表征。然而,要想从理论上更好地理解为什么语言建模似乎在迁移学习中如此有效,还需要进行更多的研究。

    NLP 的 ImageNet 时代

    NLP 真正转向迁移学习的时机已经成熟。鉴于 ELMo、ULMFiT 和 OpenAI 令人印象深刻的实验结果,这种发展似乎只是一个时间问题,预训练的词嵌入将逐渐落伍,取而代之的是每个 NLP 从业者工具箱里的预训练语言模型。这可能会在标注数据数量不足时为 NLP 创造更多可能性。苍天已死,黄天当立!

     

    展开全文
  • 中文同义词典

    万次阅读 2016-07-26 22:28:37
    // 该词典来源于开源中文分词软件盘古分词 揭穿,戳穿  聪慧,聪明  葱郁,葱茏  粗暴,粗鲁  粗俗,粗鄙  粗鄙,粗俗  篡夺,夺取  懦弱,脆弱  村庄,村落  村子,村庄  存放,寄存  寄放,存放 ... 畏
  • 是用来修饰、限定、说明名词或代词的品质与特征的。 宾语 ,也称受,是指一个动作(动词)的接受者。 是的,在过程中,除了成为一个领域专家,也会成为一个语言专家的。所以,如果你们的表达都不好,你还需要一个...
  • 这个很准确,现在我重新组织我的语言,”不要打破链式调用!“,这句话更应该说,不要破坏 RxJava事件驱动型 的编程思想。 你到底想说什么? 现在让我们回到文章的标题上,Android开发中, 网络请求的错误处理...
  • 说起 Serverless 这个,我想大家应该都不陌生,那么 Serverless 这个到底是什么意思?Serverless 到底能解决什么问题?可能很多朋友还没有深刻的体会和体感,这篇...那么 Serverless 连起来,再稍加修饰,那就是..
  • 连接的 称为 修饰符 简写 v-bind:直接去掉,保留: v-on: @ */ var app = new Vue({ el:"#app", data:{ msg:"通过vue重拾信心", span:`wocao 只是感叹`, id:"CD001", show:false, eventname:"mouseenter" }, ...
  • 说起 Serverless 这个,我想大家应该都不陌生,那么 Serverless 这个到底是什么意思?Serverless 到底能解决什么问题?可能很多朋友还没有深刻的体会和体感。...
  • 英语词典

    2009-08-29 20:53:10
    形容 a.形容的 adjust / E5dVQst/ vt.调整,调节;校正 administration / Edminis5treiFEn/ n.管理;管理部门 admire / Ed5maiE/ vt.钦佩,羡慕,赞赏 admission / Ed5miFEn/ n.允许进入;承认 ...
  • 同义词库

    千次阅读 2017-12-19 12:23:00
    # The ASF licenses this file to You under the Apache License, Version 2.0 # (the "License"); you may not use this file except in compliance with # the License. You may obtain a copy of the...
  • 简介: 说起 Serverless 这个,我想大家应该都不陌生,那么 Serverless 这个到底是什么意思?Serverless 到底能解决什么问题?可能很多朋友还没有深刻的体会和体感,这篇文章我就和大家一起聊聊 Serverless。 ...
  • 英语同义辨析

    2012-01-04 15:41:00
    英语同义辨析 2011年12月19日  英语常用同义辨析  1. adopt, adapt, acquire, accept  adopt vt. 采纳、采用 adapt vt. 使适应 accept vt. 接受 acquire vt. 得到,获得知识(经验)  2. accident, ...
  • 2019考研英语熟生义

    千次阅读 多人点赞 2019-06-04 08:29:57
    2019考研英语熟生意 1.abandon 放松,沉溺 She abandoned herself to the scene landscape. 2.abide:容忍 经受住 3.abroad:广为流传
  • 而智能合约依靠区块链中事先写好的代码进行仲裁,能自动执行事先写好的代码命令,且不需要人的干预,也就是说结果无法被任何人篡改,从而更透明、更去中心化、降低社会信用成本,因此有了“代码即法律” 的说法。...
  • 机器学习(ML)、深度学习(DL)和图像处理(opencv)专用英语词典 百度翻译 ... A AAN (Active Appearance Model)主动外观模型 Adam(adaptive moment estimation,适应性矩估计),Adam是一种可以替代传统随机梯度...
  • 而麦壳在原料使用上也毫不吝啬,用的是服装行业里被誉为好棉花代名的新疆棉。 (品牌提供的新疆棉采购单????) 它不仅因为柔软亲肤又细腻的天然特性,成为许多优质贴身衣物的首选。 更重要的是,新疆棉的纤维长度...
  • 昨天,拳王分享了一篇**《网赚高手的零成本引流秘籍,这4个才是核心思维!》**,讲了引流的底层思维。 今天,我们分享的是:《缺流量难变现?百度文库引流让你0成本巧获5000精准粉!》。 互联网是个充满无限机会,一...
  • 成人学位英语词汇易混淆的125个

    千次阅读 2010-12-10 11:57:00
       成人本科学位英语考试,除了《成人英语三级词汇手册》列出的之外,我们学习词汇时还应注意容易混淆的。英语中有些形和读音相近,但意义却不同;有些同义,基本意义相同,但内涵的意义有...
  • 基于向量空间专业化的动词类跨语言归纳与迁移 本文探讨了三个重要的问题: (Q1)考虑到它们对分布假设的基本依赖性,在多大程度上无监督的向量空间诱导方法可以促进不同语言间VerbNet风格动词类的自动诱导? (Q2...
  • 所谓长尾理论,是指当商品储存、流通、展示的场地和渠道足够宽广,商品生产成本急剧下降以至于个人都可以进行生产,并且商品的销售成本急剧降低时,几乎任何以前看似需求极低的产品,只要有人卖,都会有人买。...
  • “Asynchronous JavaScript and XML”(异步JavaScript和XML),AJAX并非缩写,而是由Jesse James Gaiiett创造的名词,是指一种创建交互式网页应用的网页开发技术。AJAX最大的作用就是实现更强的“用户体验”,实现...
  • 块 sgjsj 能行性 sgjsj 旁路电容 sgjsj 窗口标题 sgjsj 子插件板 sgjsj 适应度景象 sgjsj 指令处理 sgjsj 主控台 sgjsj 争用 sgjsj 一币一 sgjsj 调试 sgjsj 自学习 sgjsj 调度 sgjsj 信息加密 sgjsj 结构 sgjsj ...
  • 选自the Gradient 作者:Sebastian Ruder 机器之心编译 ...计算机视觉领域常使用在 ImageNet 上预训练的模型,它们可以进一步...而在自然语言处理领域中,我们通常只会使用预训练嵌入向量编码词汇间的关系,...
  • 指针(注意这里的*不是修饰 func,而是修饰 func[5]的,原因是[]运算符优先级比*高,func 先跟[]结合)。 跳出这个括号,看右边,又遇到圆括号,说明 func 数组的 元素是函数类型的指针,它指向的函数具有 int* ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,555
精华内容 2,222
关键字:

修饰成本的词