精华内容
下载资源
问答
  • BERT是怎样炼成--词向量发展史

    千次阅读 2018-12-28 10:31:19
    如何得到优质向量是非常热门研究主题。 什么是好向量? 反映出语义和语法复杂特征 适应不同上下文进行变换 历史回顾-如何用向量表示词语? one hot vector 有序词典V,包括n个单词。 每一个单词用长度...

    基本原理和特性

    词向量

    预训练词向量对于很多计算机语言模型至关重要。如何得到优质的词向量是非常热门的研究主题。

    什么是好的词向量?

    • 反映出语义和语法的复杂特征
    • 适应不同上下文进行变换

    历史回顾-如何用向量表示词语?

    one hot vector

    有序词典V,包括n个单词。

    每一个单词用长度为n的向量表示。这个向量仅于单词在V词典中索引序号位置为1,其余位置为0。这是一种非常稀疏的向量。

    缺点:

    1.维度非常高。
    2.这种向量无法表示词与词之间的关系,无法衡量相似度。
    

    word2vec

    用低维度密集向量表示单词,通常维数为100-300。

    在训练过程中,要求计算机学习根据当前单词预测其周围单词。或根据周围单词预测当前单词。

    模型收敛后,得到单词与向量映射表。

    优点:

    1.相比one hot维度变低,利于计算。
    2.词向量可以表达词语关系:相同上下文环境的词,会具有相似的向量值。
    3.无需人工标注,可以利用丰富的语料库自动抽取特征。
    

    缺点:

    1.无法区分近义词与反义词,它们会具有相似的向量。
    2.单词和向量是一一对应关系,而实际上单词在不同文本环境下,会具有不同的含义,向量无法适应上下文而变换。如下两句,词朝阳会被用相同的向量表达。
    我在朝阳上班。
    这是个朝阳行业。
    

    ELMo

    论文点我

    动态词向量技术,词向量不再用固定的映射表来表达。

    ELMo训练出一个神经网络模型,它接受输入一个句子,输出句子中每个单词的向量序列。

    网络结构:

    训练过程:输入句子 - embedding层(512) - 双向lstm层(2*512) - 双向lstm层(2*512) - softmax层(vocab_size)
    
    预测过程:输入句子 - embedding层(512) - 双向lstm层(2*512) - 双向lstm层(2*512) - 拼接前三层各自的输出(3*1024)
    

    训练任务:

    分别从句子的正反两个方向encode,预测下一个单词。

    我爱北京天安门。

    正向:
    输入 我 爱 北京 天安门
    预测 爱 北京 天安门 。

    反向:
    输入 。 天安门 北京 爱
    预测 天安门 北京 爱 我

    优点:

    1.继承了word2vec的所有优点
    2.动态词向量,解决了不同上下文环境下向量不可变的问题。
    

    缺点:

    1.用两个单向模型(双向lstm)表示双向语言模型。每一个单向模型只能注意到它前面的所有词语,而无法接触到它后面的词语。
    

    BERT

    论文点我

    为了弥补ELMo的不足,BERT真正实现了双向语言模型。

    此外,BERT还增加了一个特性,使神经网络学习句子之间是否连贯的关系,最终能在智能问答等领域得到最佳结果。

    网络结构:

    训练过程:输入句子 - embedding层(768) - position_embedding层(768) - transformer层(768) * 12 - masked_lm层 - next_sentence层
    预测过程:输入句子 - embedding层(768) - position_embedding层(768) - transformer层(768) * 12
    

    训练任务:

    1.遮蔽单词预测(masked lm)

    在原句中随机选择单词做遮蔽处理。

    由于训练过程,语料含有遮蔽的词,而训练后将模型应用于实际任务时,语料没有遮蔽词。这种不匹配问题,用下面的方式来解决:

    挑选15%的词。这些被选中的词中,80%直接替换成[MASK],10%被随机替换成另一个语料中的词,10%不做任何处理。

    Transformer编码器不知道最终要预测哪个词,更不知道输入句子对里哪个词是被随机替换成其他词了,所以它必须保留每个词语的语境表达分布信息。此外,这种随机替换的概率只有15%*10%=1.5%,因此它不会严重破坏语言模型的理解能力。

    由于task1中只对15%的遮蔽词做预测,这样的任务需要更多的训练步骤才能达到收敛。但它对模型精度提升的收益远大于训练时间成本。

    2.句子对[A, B]关系预测(next_sentence)
    许多重要的下游任务,如问答(QA)和自然语言推理(NLI)都是基于理解两个句子之间的关系。通过上述语言模型,无法直接获得这种信息。

    为了训练一个理解句子关系的模型,解决方法为:训练一个二分类任务,判断句子对[A,B]是否连贯的上下文。

    生成句子对[A,B]时,50%概率是连贯的上下句,50%概率是随机摘取的不相关句子。

    优点:

    1.在NLP领域各项任务中取得突破性成绩。
    2.训练完毕后,稍加调整即可用于具体任务。
    

    缺点:

    1.训练过程非常耗时,谷歌公布的训练时间是在4-16个TPU集群上训练了4天,如果用GPU训练可能需要一周以上。
    好在谷歌开源了训练好的中文模型。
    2.模型参数量大,约为110M,需占用11G显存(一整张显卡)。
    
    展开全文
  • 词嵌入:把词映射为实数域上向量的技术也叫词嵌入(word embedding)。 词向量的分类表示: 一、共现矩阵  通过统计一个事先指定大小的窗口内的word共现次数,以word周边的共现词的次数做为当前word的vector。...

    话不多说,直接上干货。

    首先介绍相关概念:

    词嵌入把词映射为实数域上向量的技术也叫词嵌入(word embedding

    词向量的分类表示

    一、共现矩阵

           通过统计一个事先指定大小的窗口内的word共现次数,以word周边的共现词的次数做为当前wordvector具体来说,我们通过从大量的语料文本中构建一个共现矩阵来定义word representation

           例如,有语料如下

    I like deep learning.
    I like NLP.
    I enjoy flying.

          得到共现矩阵X如下:

    此时选的窗口大小为3,选择在该窗口内词汇的共现频率作为vector

    矩阵定义词向量的优点:在一定程度上缓解了one-hot向量相似度为0的问题,但依旧没有解决数据系数和维度灾难的问题。

    二、SVD(奇异值分解)

           既然基于共现矩阵得到的离散词向量存在着高维和稀疏性的问题,一个自然而然的解决思路是对原始词向量进行降维,从而得到一个稠密的连续词向量。

           首先,统计一个词语的共生矩阵XX是一个|V|×|V| 大小的矩阵,Xij表示在所有语料中,词汇表V中第i个词和第j个词同时出现的词数,|V|为词汇表的大小。X做矩阵分解(如奇异值分解)得到矩阵正交矩阵U,对U进行归一化得到矩阵,即视为所有词的词向量:

    SVD得到了word的稠密(dense)矩阵,该矩阵具有很多良好的性质:语义相近的词在向量空间相近,甚至可以一定程度反映word间的线性关系。

    但这样的传统做法有很多问题:

    1. 由于很多词没有出现,导致矩阵极其稀疏,因此需要对词频做额外处理来达到好的矩阵分解效果;
    2. 矩阵非常大,维度太高
    3. 需要手动去掉停用词(如although, a,...),不然这些频繁出现的词也会影响矩阵分解的效果。

    奇异值分解可见本专栏的博客

    三、神经网络语言模型(NNLM

    NNLMBengio等人提出,他的主要想法就是:

    1. 把字典里的每一个单词对应一个词特征向量

    2. 把单词序列表示成联合概率函数

    3. 自动学习词特征向量和概率函数的参数

    NNLM中,每一个单词为向量空间中的一个点,而且特征的数目要比字典的大小要小,它的概率函数表示为在给定前一个词下,后一个词的条件概率的乘积。

    输入:

    (1)首先是对整个词汇表建立一个索引,每个单词对应一个索引号,其实就是one-hot编码

    (2)one-hot编码建立索引矩阵D,维度为 (n−1)×|V|,即每一行代表一个单词的one hot

    (3)而矩阵C每一行为一个单词的词向量,这样D⋅C就抽取出对应单词的向量了,这就是图中的table look-up in c

    (4)找出对应的词向量后,将这些词向量拼接在一起,形成一个 (n−1)m维的列向量x

    (5)经过隐含层tanh函数的激活,再经过softmax输出层的输出,这就得到了函数g的输出向量。

    输出:

           函数g把输入的上下文单词的特征向量(C(wt−n+1),...,C(wt−1))映射为下一个单词wt的条件概率分布函数,当然,这个单词wt在字典V中。

    四、Word2Vec

           2013年,Google团队发表了word2vec工具word2vec工具主要包含两个模型:跳字模型(skip-gram)和连续词袋模型(continuous bag of words,简称CBOW),以及两种近似训练法:负采样(negative sampling)和层序softmaxhierarchical softmax)。值得一提的是,word2vec的词向量可以较好地表达不同词之间的相似和类比关系。    

          在skip-gram模型中,我们用一个词来预测它在文本序列周围的词。

          在cbow模型中,我们用周围词来预测核心词。

          word2vec详情可参考我的这篇博客

     

    五、Glove

          Glove是斯坦福大学Jeffrey Pennington等人提出的他们认为虽然skip-gram模型在计算近义词方面比较出色,但它们只是在局部上下文窗口训练模型,并且它很少使用语料中的一些统计信息,因此Jeffrey Pennington等人又提出了一个新型模型GloVe

           首先给一些说明,词-词共现计数矩阵可以表示为X,则Xij为单词j出现在单词i上下文中的次数。Xi=ΣkXik表示任何词出现在单词i上下文中的次数,Pij=P(j|i)=Xij/Xi表示单词j出现在单词i上下文中的比率

           使用一个例子来说明是怎样从共现概率中抽取确定的意思,其实也就是说,和哪个上下文单词在一起的多,那么这个单词与这个上下文单词在一起要比与其他词在一起意义要大。

           例如i=ice, j=steam,假设有共现词k,但是kice的联系要比与steam的联系强,也就是说单词kice出现的概率比与 steam出现的概率大,比如说k=solid,那么我们认Pik/Pjk会很大。

           相似地,如果单词ksteam的联系比与ice的联系强,例如k=gas,那么Pik/Pjk的比率会很小,对于其他的单词kwater, fashionice,steam联系都强或都不强的话,则Pik/Pjk的比率会接近1

           这个比率就能区别相关词(solid, gas)和不相关词(water, fashion),并且也能区别这两个相关的词(solid, gas)。那么得到的向量可能为ice-steam=solid-gas,这与word2vec相似。

            word2vecglove的区别:

            Omer Levy等人对基于计数的方法和基于embedding的方法做了对比,发现它们之间并没有非常大的差距,在不同的场景各个模型发挥不同的作用,它们之间并没有谁一定优于谁,相比于算法而言,增加语料量,进行预处理以及超参数的调整显得非常重要。特别指出,基于negtive samplingskip-gram模型可以作为一个基准,尽管对不同的任务它可能不是最好的,但是它训练快,占用内存和磁盘空间少。

    六、ELMo-动态词向量

            艾伦研究所开发,并于6月初在NAACL 2018年发布ELMo(深度语境化的单词表示)。ELMo(Embeddings from Language Models) ,被称为时下最好的通用词和句子嵌入方法,来自于语言模型的词向量表示,也是利用了深度上下文单词表征,该模型的优势:
    1)能够处理单词用法中的复杂特性(比如句法和语义)
    2)这些用法在不同的语言上下文中如何变化(比如为词的多义性建模)

           ELMoword2vecglove最大的不同:即词向量不是一成不变的,而是根据上下文而随时变化,这与word2vec或者glove具有很大的区别

    举个例子:针对某一词多义的词汇 w="苹果"
    文本序列1=“ 买了 六斤 苹果。
    文本序列2=“ 买了一个 苹果 7
    上面两个文本序列中都出现了苹果这个词汇,但是在不同的句子中,它们的含义显示是不同的,一个属于水果领域,一个属于电子产品呢领域,如果针对苹果这个词汇同时训练两个词向量来分别刻画不同领域的信息呢?答案就是使用ELMo

            ELMo是双向语言模型bilm的多层表示的组合,基于大量文本,ELMo模型是从深层的双向语言模型(deep bidirectional language model)中的内部状态(internal state)学习而来的,而这些词向量很容易加入到QA、文本对齐、文本分类等模型中,后面会展示一下ELMo词向量在各个任务上的表现。

           它首先在大文本语料库上预训练了一个深度双向语言模型(bilm),然后把根据它的内部状态学到的函数作为词向量。实验表明,这些学到的词表征可以轻易地加入到现有的模型中,并在回答问题、文本蕴含、情感分析等 6 个不同的有难度的 NLP 问题中大幅提高最佳表现。实验表明显露出预训练模型的深度内部状态这一做法非常重要,这使得后续的模型可以混合不同种类的半监督信号。

           使用ELMo获得词向量替换Glove的词向量作为多项特定NLP模型的输入,在ELMO实验论文中表明具有一定的效果提升:

    ps:

    elmo很厉害,但并不是说在中文语料的表现上比word2vec好很多。据哈工大的研究表明,从句发任务的角度出发,在OOV比例高的数据中ELMO效果好。哈工大分析了OOV、traning data size、morphological richness等因素。在多国语法任务中,OOV rate与ELMo带来的提升的相关性最高。(当然,这些因素之间实际上不是正交的,traning data size比较小的往往OOV rate也高,morphology rich的数据OOV往往更多)。

    回到中文的问题,ELMo能否比word2vec好以及好多少,和实际任务关系可能很大。

    如果是训练数据很少或者接近zero-shot,one-shot这种settings,ELMo很可能表现得更好。如果训练数据很好(比如其他答案中提到的dureader数据),ELMo可能没什么效果。

    除此之外,中文是形态不丰富的语言,这点可能会影响ELMo的发挥。

    详情可见链接

    展开全文
  • 什么是人工智能? 人工智能在过去达到了什么程度? 人工智能在过去几年中有哪些值得称道里程碑? 5年、20年、50年或100年后...1920年,捷克作家卡雷尔•恰佩克发表了一部名为罗森通用机器人科幻小说,也被称为RUR...

    什么是人工智能? 人工智能在过去达到了什么程度? 人工智能在过去几年中有哪些值得称道的里程碑? 5年、20年、50年或100年后,人工智能将解决什么问题? 人工智能的未来会是什么样子?

    觉醒向量带你秒懂AI发展史
     
         关于人工智能的话题不胜枚举,在探讨这些话题之前,我们不妨来聊聊人工智能的历史。
     

    罗森的RUR

     
         1920年,捷克作家卡雷尔•恰佩克发表了一部名为罗森的通用机器人的科幻小说,也被称为RUR。该剧中引入了“机器人”这个词。RUR的背景是一家工厂,该工厂创造了一个名为机器人的人造人。它们与今天的机器人术语不同,它代表的不是机器人的现代概念。在RUR中,机器人是生物,与克隆的术语更为相似。RUR中的机器人首先为人类工作,但随后出现了机器人叛乱,导致人类灭绝。
     
         文学和电影中的人工智能本身就是一个很大的话题。RUR的例子应该表明人工智能对社会的重要性和影响力。
     

    艾伦•图灵

     
         艾伦•图灵1912年6月23日出生于伦敦。众所周知,图灵在科学界特别在数理逻辑和计算机科学方面,取得了举世瞩目的成就,他的一些科学成果,构成了现代计算机技术的基础。
     
         在第二次世界大战结束几年后,图灵引入了他广为人知的图灵测试,这是一次智能定义机器的尝试。其想法是测试者与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。进行多次的测试后,如果有超过30%的测试者不能确定出被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类智能。
     

    达特茅斯会议

     
         1956年,在美国汉诺斯小镇宁静的达特茅斯学院中,来自卡内基梅隆大学(CMU),麻省理工学院(MIT)和IBM员工的研究人员齐聚一堂,会议围绕着一个主题——用机器来模仿人类学习以及其他方面的智能。会议开了两个月之久,最后他们给会议内容起了一个名字:人工智能。随后共同创立了AI研究,因此1956年也被成为人工智能元年。
     
         “20年后,机器将能够完成人类可以做的任何工作” – Herbert A. Simon(CMU)
     
         “在一代人之内……创造‘设计智慧’的问题将基本得到解决” – 马文明斯基(麻省理工学院)
     
         然而毕竟是在20世纪60年代。在接下来的几年里,进展非常缓慢。由于没有认识到任务的难度,承诺被打破了。
     

    第一个AI冬天

     
         在1974年左右,由于过度乐观的想法以及后来也没有什么突破性的进展,美国和英国政府中断了对人工智能的探索×××。热情褪去后,没有人想资助人工智能研究,人工智能的宣传兴趣也随之减少了。接下来的几年被称为第一个AI冬季。
     

    专家系统

     
         在第一次AI冬季之后,人工智能以一种所谓的“专家系统”的形式回归。
     
         “专家系统是一个智能计算机程序系统,其内部含有大量的某个领域专家水平的知识与经验,能够利用人类专家的知识和解决问题的方法来处理该领域问题。”他们模仿特定分支中的专家并按规则解决问题。专家系统中有两种类型的引擎:首先是知识库。知识库包含解决问题相关的领域知识。在基于规则的专家系统中,知识用一组规则来表达。其具有IF(条件)THEN(行为)结构,当规则的条件被满足时,触发规则,继而执行行为。其次是推理引擎,推理引擎执行推理,专家系统由此找到解决方案。推理引擎链接知识库中的规则和数据库中的事实。
     
    接下来人工智能将进入第二个冬天。
     
    由于篇幅原因,后续文章内容请阅读——AI发展的第二个冬季
     

      阅读原文请进入:[觉醒向量数据标注官网/资源中心/Blog](http://www.awkvector.com)
    展开全文
  • 线性代数发展史

    千次阅读 2014-01-10 16:19:57
     线性代数是高等代数的一大分支。我们知道一次方程叫做线性方程,讨论线性方程及线性运算的代数就叫做线性代数。在线性代数中最重要的内容就是行列式和矩阵。...向量的概念 , 从数学的观点来看不过是有序三元数组的一

    原文链接:http://math.sjtu.edu.cn/jidi/xxds/kcjs/fzs.htm

            线性代数是高等代数的一大分支。我们知道一次方程叫做线性方程,讨论线性方程及线性运算的代数就叫做线性代数。在线性代数中最重要的内容就是行列式和矩阵。行列式和矩阵在十九世纪受到很大的注意 , 而且写了成千篇关于这两个课题的文章。向量的概念 , 从数学的观点来看不过是有序三元数组的一个集合 , 然而它以力或速度作为直接的物理意义 , 并且数学上用它能立刻写出 物理上所说的事情。向量用于梯度 , 散度 , 旋度就更有说服力。同样 , 行列式和矩阵如导数一样(虽然 dy/dx 在数学上不过是一个符号 , 表示包括△y/△x的极限的长式子 , 但导数本身是一个强有力的概念 , 能使我们直接而创造性地想象物理上发生的事情)。因此,虽然表面上看,行列式和矩阵不过是一种语言或速记,但它的大多数生动的概念能对新的思想领域提供钥匙。然而已经证明这两个概念是数学物理上高度有用的工具。

      线性代数学科和矩阵理论是伴随着线性系统方程系数研究而引入和发展的。 行列式的概念最早是由十七世纪日本数学家关孝和提出来的,他在 1683 年写了一部叫做《解伏题之法》的著作,意思是 “ 解行列式问题的方法 ” ,书里对行列式的概念和它的展开已经有了清楚的叙述。欧洲第一个提出行列式概念的是德国的数学家, 微积分学奠基人之一 莱布 尼 兹 ( Leibnitz , 1693 年) 。 1750 年 克莱姆( Cramer ) 在他的《线性代数分析导言》( Introduction d l'analyse des lignes courbes alge'briques )中 发表了求解线性系统方程的重要基本公式(既人们熟悉的 Cramer 克莱姆法则)。 1764 年 , Bezout 把确定行列式每一项的符号的手续系统化了。对给定了含 n 个未知量的 n 个齐次线性方程 , Bezout 证明了系数行列式等于零是这方程组有非零解的条件。 Vandermonde 是第一个对行列式理论进行系统的阐述 ( 即把行列 ' 式理论与线性方程组求解相分离 ) 的人。并且给出了一条法则,用二阶子式和它们的余子式来展开行列式。就对行列式本身进行研究这一点而言,他是这门理论的奠基人。 Laplace 在 1772 年的论文《对积分和世界体系的探讨》中 , 证明了 Vandermonde 的一些规则 , 并推广了他的展开行列式的方法 , 用 r 行中所含的子式和它们的余子式的集合来展开行列式,这个方法现在仍然以他的名字命名。 德国数学家雅可比( Jacobi )也于 1841 年总结并提出了行列式的系统理论。另一个研究行列式的是法国最伟大的数学家 柯西 (Cauchy) ,他大大发展了行列式的理论,在行列式的记号中他把元素排成方阵并首次采用了双重足标的新记法,与此同时发现两行列式相乘的公式及改进并证明了 laplace 的展开定理。相对而言,最早利用矩阵概念的是 拉格朗日( Lagrange ) 在 1700 年后的双线性型工作中体现的。拉格朗日期望了解多元函数的最大、最小值问题,其方法就是人们知道的拉格朗日迭代法。为了完成这些,他首先需要一阶偏导数为 0 ,另外还要有二阶偏导数矩阵的条件。这个条件就是今天所谓的正、负的定义。尽管拉格朗日没有明确地提出利用矩阵。

      高斯( Gauss ) 大约在 1800 年提出了高斯消元法并用它解决了天体计算和后来的地球表面测量计算中的最小二乘法问题。(这种涉及测量、求取地球形状或当地精确位置的应用数学分支称为测地学。)虽然高斯由于这个技术成功地消去了线性方程的变量而出名,但早在几世纪中国人的手稿中就出现了解释如何运用“高斯”消去的方法求解带有三个未知量的三方程系统。在当时的几年里,高斯消去法一直被认为是测地学发展的一部分,而不是数学。而高斯 - 约当消去法则最初是出现在由 Wilhelm Jordan 撰写的测地学手册中。许多人把著名的数学家 Camille Jordan 误认为是“高斯 - 约当”消去法中的约当。

      矩阵代数的丰富发展,人们需要有合适的符号和合适的矩阵乘法定义。二者要在大约同一时间和同一地点相遇。 1848 年英格兰的 J.J. Sylvester 首先提出了矩阵这个词,它来源于拉丁语,代表一排数。 1855 年矩阵代数得到了 Arthur Cayley 的工作培育。 Cayley 研究了线性变换的组成并提出了矩阵乘法的定义,使得复合变换 ST 的系数矩阵变为矩阵 S 和矩阵 T 的乘积。他还进一步研究了那些包括矩阵逆在内的代数问题。著名的 Cayley- Hamilton 理论即断言一个矩阵的平方就是它的特征多项式的根,就是由 Cayley 在 1858 年在他的矩阵理论文集中提出的。利用单一的字母 A 来表示矩阵是对矩阵代数发展至关重要的。在发展的早期公式 det( AB ) = det( A )det( B ) 为矩阵代数和行列式间提供了一种联系。 数学家 Cauchy 首先给出了特征方程的术语,并证明了阶数超过 3 的矩阵有特征值及任意阶实对称行列式都有实特征值;给出了相似矩阵的概念,并证明了相似矩阵有相同的特征值;研究了代换理论。

      数学家试图研究向量代数,但在任意维数中并没有两个向量乘积的自然定义。第一个涉及一个不可交换向量积(既 v x w 不等于 w x v )的向量代数是由 Hermann Grassmann 在他的《线性扩张论》( Die lineale Ausdehnungslehre ) 一 书中提出的。 (1844) 。他的观点还被引入一个列矩阵和一个行矩阵的乘积中,结果就是现在称之为秩数为 1 的矩阵,或简单矩阵。在 19 世纪末美国数学物理学家 Willard Gibbs 发表了关于《向量分析基础》 ( Elements of Vector Analysis ) 的著名论述。其后物理学家 P. A. M. Dirac 提出了行向量和列向量的乘积为标量。我们习惯的列矩阵和向量都是在 20 世纪由物理学家给出的。

      矩阵的发展是与线性变换密切相连的。到 19 世纪它还仅占线性变换理论形成中有限的空间。现代向量空间的定义是由 Peano 于 1888 年提出的。二次世界大战后随着现代数字计算机的发展,矩阵又有了新的含义,特别是在矩阵的数值分析等方面。 由于计算机的飞速发展和广泛应用,许多实际问题可以通过离散化的数值计算得到定量的解决。于是作为处理离散问题的线性代数,成为从事科学研究和工程设计的科技人员必备的数学基础。

    展开全文
  • 本篇介绍深度学习在自然语言处理(NLP)中应用,从词向量开始,到最新最强大BERT等预训练模型,梗概性介绍了深度学习近20年在NLP中一些重大进展。作者&...
  • PythonPython开发Python语言支持向量机SVM知识梳理和在sklearn库中应用 SVM发展史线性SVM=线性分类器+最大间隔间隔(margin):边界活动范围。The margin of a linear classifier is defined as the width that the...
  • 有振动 就有特征值 1 特征值和特征向量的由来 ...下面用一个表格来总结一下线性代数的发展史上做出重要贡献的数学家: 其实,在北宋时期,我国就与发现矩阵特征值理论的机会擦肩而过。 在古代,洞房...
  • 【线性分类器】(四)万字长文解释拉格朗日乘子与支持向量机 自 1986 年 Rumelhart 和 Hinton 等人提出 BP 网络以来,多层人工神经网络终于有了有效训练方法,也带来了人工神经网络研究又一次繁荣。但是...
  • 原理可参考:从Word Embedding到Bert模型—自然语言处理中预训练技术发展史-张俊林 模型构建与训练 中文预训练模型:github上有哈工大HIT-SCIR/ELMoForManyLangs,多种语言,注意区分有繁体中文和简体中文(网盘...
  • 大家好,我们又见面了今天我们的话题与什么有关呢?请看下图:(deng~deng~deng~deng)是不是有种熟悉的感觉?没错!这就是我们的线代课本谈到线性代数课本里面的...下面小编就用一个表格来总结一下线性代数的发展史...
  • 3.卷积神经网络发展史 简单单层神经网络不能解决异或问题————Back Propagation算法,BP算法————卷积神经网络用于自然图形中物体识别————千层机器学习模型相继被提出,支撑向量机(SVM),Boosting,...
  • NLP pretrained model

    2019-10-27 20:42:58
    此处大量参考从Word Embedding到Bert模型—自然语言处理中预训练技术发展史 Word Embedding 词向量在自然语言处理中有着重要角色,它将抽象词语之间语义关系量化成向量形式。有了良好向量,我们就可以...
  • 从Word Embedding到Bert模型——自然语言处理预训练技术发展史 简单来说,词向量模型是一个工具,可以把文字(词语/字符)转换成向量,然后我们使用这些向量来完成各种 NLP 任务。因而某种意义上,NLP 任务分成两...
  • 开篇 本篇是主要讲述云计算的发展历程,由于云计算本身提出来也不是太久,并且其实云计算也是经过前人的一些经验总结提出,所以我们对之前的一些计算机的发展史有个一定的了解,那么对云计算的理解就更深入了,当今...
  • SVM(一) 问题提出

    2016-02-25 10:45:21
    SVM是支持向量机从诞生至今才10多年,发展史虽短,但其理论研究和算法实现方面却都取得了突破性进展,有力地推动机器学习理论和技术的发展。这一切与支持向量机具有较完备的统计学习理论基础的发展背景是密不可分的...
  • SVM(一)问题提出

    2015-12-06 23:14:23
    SVM是支持向量机从诞生至今才10多年,发展史虽短,但其理论研究和算法实现方面却都取得了突破性进展,有力地推动机器学习理论和技术的发展。这一切与支持向量机具有较完备的统计学习理论基础的发展背景是密不可分的...
  • 这次的系列文章将会介绍NLP领域语言模型及词向量表示的发展史,原理篇会从远古时代的one-hot出现讲到时代新星bert及其改进,同时后续的实践篇将会介绍预训练模型在房产领域的工业实践应用,带你填上一个个的大坑。...
  •  本篇是主要讲述云计算的发展历程,由于云计算本身提出来也不是太久,并且其实云计算也是经过前人的一些经验总结提出,所以我们对之前的一些计算机的发展史有个一定的了解,那么对云计算的理解就更深入了,当今信息...
  •  本篇是主要讲述云计算的发展历程,由于云计算本身提出来也不是太久,并且其实云计算也是经过前人的一些经验总结提出,所以我们对之前的一些计算机的发展史有个一定的了解,那么对云计算的理解就更深入了,当今信息...

空空如也

空空如也

1 2 3 4
收藏数 69
精华内容 27
关键字:

向量的发展史