精华内容
下载资源
问答
  • Word Embedding
    2021-10-20 08:31:52

    1.什么是Word Embedding

    Word Embedding:将文本转化成数字。这种转化是非常有必要的,因为许多的机器学习算法不能直接处理文本字符,需要将输入转变成向量或者张量。World Embedding的目的是用更低的空间创建向量表示,这被称之为Word Vectors(词向量)。

    从一个文本语料库中构造一个低维的向量表示,保存一个单词的语义相似性。

    2.使用向量表示字符有两个特点:

    (1)降低了维度——更有效的表示
    (2)语义文本相似性——更有表现力的表示

    3.Word Vector(词向量)

    词向量被用作语义解析,能够从文本中提取词要表达的意思使自然语言模型能够理解。自然语言模型能够预测到文本的含义需要掌握单词的语义相似性。比如跟水果有关的单词,我们想要发现的应该是生长、吃、果汁等这些有关联的词。

    生成World Embedding 最著名的方法是word2vec

    更多相关内容
  • 我总爱重复一句芒格爱说的话: Totheonewithahammer,everythinglookslikea nail.(手中有锤,看什么都像钉) 这句话是什么意思呢? 就是你不能只掌握数量很少的方法、工具。 否则你的认知会被
  • 基于中文维基百科文本数据训练词向量 一,数据获取 本词向量利用的是中文维基百科的语料进行训练。 语料地址: (大小1.16G) 也可以在我的网盘上下载:链接: 提取码:ihu4 二,数据转换 原数据的格式是xml,我们...
  • Neural Word Embedding as Implicit Matrix FactorizationOmer Levy Department of Computer ScienceBar-Ilan University omerlevy@gmail.comYoav Goldberg Department of Computer ScienceBar-Ilan University yoav...
  • 尝试将word embedding和卷积神经网络(CNN)相结合来解决情感分类问题。首先,利用skip-gram模型训练出数据集中每个词的word embedding,然后将每条样本中出现的word embedding组合为二维特征矩阵作为卷积神经网络的...
  • word embedding

    2020-06-24 23:28:59
    word embedding之前,我们经历了wordnet以及onehot,wordnet需要人力去维护,onehot由于每个词都互相正交,没办法计算相似度,同时也存在着维度爆炸的情况。故而出现了word embedding。 输入与输出 为了得到word ...

    由来

    在处理自然语言任务的时候,需要对文本进行表征,通常我们需要将其转为数字。在word embedding之前,我们经历了wordnet以及onehot,wordnet需要人力去维护,onehot由于每个词都互相正交,没办法计算相似度,同时也存在着维度爆炸的情况。故而出现了word embedding。

    输入与输出

    为了得到word embedding,我们通常会使用word2vec工具来进行训练得到。当输入是英文类的字符时,可能需要对文本做适当的预处理(单复数等,不是特别确定),当中文时,需要对字符做分词。通过工具我们将会得到一组词向量,用于其他下游任务。

    训练方式

    每一个词都会当作中心词和周围词,故而每个词其实是由两个向量组成的。
    训练方式主要有CBOW和skip-Gram两种。CBOW的训练方式中,会将dense后的向量进行平均,然后再进行y的预测。Skip-Gram的训练中,相当于将上下午做了拆解,每个词去预测中心词,会比CBOW更多训练样本。通常当数据量少的时候,CBOW的效果会更好一些。

    训练技巧

    由于y的大小是V,每次更新时要有大量的计算,所以需要通过一些技巧来来降低这个量级。

    层级softmax

    主要为通过词频构建一个霍夫曼树,越靠近根的部分词频越高。

    负采样

    主要是通过修改中心词为其他随机词,减少分母部分的计算量,来降低训练复杂度。

    损失函数

    由于使用了不同的训练方式或训练技巧,导致损失函数也会有不同。具体参考:
    https://lilianweng.github.io/lil-log/2017/10/15/learning-word-embedding.html

    缺点

    由于我们得到的参数是通过所有的语料进行适配的,训练结束后,词向量也固定了下来,所以在不同的上下文中,虽然一个单词可能含义不同,但其词向量表征是相同的,这一点导致了在某些场景下表现欠佳。但我们这里相较于之前的工作来看,解决了的问题包括,不再需要人工去维护(Wordnet),是一个无监督的训练过程;不再会应为词会增多而导致维度爆炸(one-hot),也不会因为表征正交而无法计算相似度(one-hot),wordnet的相似度是由人工编辑的,并不存在去计算。

    学习过程中的一些图

    一些好的链接

    提到了交叉熵,由于损失函数,backpropogation无法套在word2vec的梯度更新参数所以查阅:
    https://machinelearningmastery.com/cross-entropy-for-machine-learning/
    解决了W是词向量参数,W’是上下文语义的问题:
    http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/
    python实现的一个word2vec代码
    https://www.kdnuggets.com/2018/04/implementing-deep-learning-methods-feature-engineering-text-data-cbow.html
    包含了很多精彩的细节:
    https://lilianweng.github.io/lil-log/2017/10/15/learning-word-embedding.html
    如何得到词向量
    https://www.zhihu.com/question/44832436

    展开全文
  • 常用word embedding简介

    2021-11-30 15:39:47
    文章目录参考word2vec 参考 Negative-Sampling Word-Embedding Method word2vec

    参考

    Negative-Sampling Word-Embedding Method
    从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
    (十五)通俗易懂理解——Glove算法原理
    理解GloVe模型(Global vectors for word representation)

    NNLM

    word embedding 最初其实是从NNLM开始的,虽然该模型的本质不是为了训练语言模型,word embedding 只是他的副产品。其架构为:
    在这里插入图片描述
    目标是用上文预测当前词,即:
    p ( c u r r e n t ∣ c o n t e x t ) p(current|context) p(currentcontext)

    word2vec

    我在word2vec原理+代码完整的介绍了word2vec的原理。并介绍了word2vec的缺陷——多义词问题
    在这里插入图片描述
    接下来介绍的Glove同样存在多义词问题。

    Glove

    Glove引入了Window based co-occurrence matrix(基于窗口的共现矩阵),令 X i j X_{ij} Xij表示word i 上下文中出现word j 的次数, X i = ∑ j X i j X_i=\sum_j X_{ij} Xi=jXij,定义:
    P i , k = X i , k X i P_{i,k}=\frac{X_{i,k}}{X_i} Pi,k=XiXi,k
    并令 r a d i o i , j , k = P i , k P j , k radio_{i,j,k}=\frac{P_{i,k}}{P_{j,k}} radioi,j,k=Pj,kPi,k,Glove的作者发现,radio的指标与单词相关度有关,具体关系如下:
    在这里插入图片描述
    那么,如果能有一个函数 g g g,使得 g ( v i , v j , v k ) = r a d i o i , j , k g(v_i,v_j,v_k)=radio_{i,j,k} g(vi,vj,vk)=radioi,j,k,就可以通过embedding计算是否相关了。很自然的想法是使用代价函数 J = ∑ i , j , k ( P i , k P j , k − g ( v i , v j , v k ) ) 2 J=\sum_{i,j,k} (\frac{P_{i,k}}{P_{j,k}}-g(v_i,v_j,v_k))^2 J=i,j,k(Pj,kPi,kg(vi,vj,vk))2。但这样的计算方式,需要有三个单词,也就是说,时间复杂度是 O ( N 3 ) O(N^3) O(N3),因此,作者对其进行了改进:

    • 考虑单词i与单词j的关系,所以 g ( v i , v j , v k ) g(v_i,v_j,v_k) g(vi,vj,vk)中要包含 v i − v j v_i-v_j vivj
    • radio是标量,因此 g ( v i , v j , v k ) g(v_i,v_j,v_k) g(vi,vj,vk)中要包含 ( v i − v j ) T v k (v_i-v_j)^Tv_k (vivj)Tvk
    • 使用指数函数,这样可以将减号变成除号,满足 P i , k P j , k \frac{P_{i,k}}{P_{j,k}} Pj,kPi,k的形式,即 e x p ( ( v i − v j ) T v k ) = e x p ( v i T v k − v j T v k ) = e x p ( v i T v k ) e x p ( v j T v k ) exp((v_i-v_j)^Tv_k)=exp(v_i^Tv_k-v_j^Tv_k)=\frac{exp(v_i^Tv_k)}{exp(v_j^Tv_k)} exp((vivj)Tvk)=exp(viTvkvjTvk)=exp(vjTvk)exp(viTvk),经过上述分析,我们最终有:
      P i , k P j , k = e x p ( v i T v k ) e x p ( v j T v k ) \frac{P_{i,k}}{P_{j,k}}=\frac{exp(v_i^Tv_k)}{exp(v_j^Tv_k)} Pj,kPi,k=exp(vjTvk)exp(viTvk)
      那么此时,只需要将 P i , k = e x p ( v i T v k ) P_{i,k}=exp(v_i^Tv_k) Pi,k=exp(viTvk)即可。

    目标函数变为:
    J = ∑ i , j [ l o g ( P i , j ) − v i T v j ] 2 J=\sum_{i,j} [log(P_{i,j})-v_i^Tv_j]^2 J=i,j[log(Pi,j)viTvj]2

    上面的式子已经很完美了,将时间复杂度从 O ( N 3 ) O(N^3) O(N3)转变为 O ( N 2 ) O(N^2) O(N2),但是他还是存在一些问题, P i , j ≠ P j , i P_{i,j}≠P_{j,i} Pi,j=Pj,i,但是 v i T v j = v j T v i v_i^Tv_j=v_j^Tv_i viTvj=vjTvi,所以还需要做一些处理:
    l o g ( P i , j ) = l o g ( X i , j ) − l o g ( X i ) = v i T v j l o g ( X i , j ) = v i T v j + b i + b j log(P_{i,j})=log(X_{i,j})-log(X_i)=v_i^Tv_j \\ log(X_{i,j})=v_i^Tv_j + b_i+b_j log(Pi,j)=log(Xi,j)log(Xi)=viTvjlog(Xi,j)=viTvj+bi+bj
    并且,频率高的词,权重不应该过分加大,需要增加一个权重系数 f ( x ) f(x) f(x)
    在这里插入图片描述
    于是代价函数变为:
    J = ∑ i , j f ( X i , j ) [ v i T v j + b i + b j − l o g ( X i , j ) ] 2 J=\sum_{i,j} f(X_{i,j})[v_i^Tv_j+b_i+b_j-log(X_{i,j})]^2 J=i,jf(Xi,j)[viTvj+bi+bjlog(Xi,j)]2

    但是Glove同样存在多义词问题,ELMO提供了一个优雅的解决方案。

    ELMO

    论文:
    Deep contextualized word representation

    ELMO是“Embedding from Language Models”的简称。他的想法是利用上下文的信息调整单词的word embedding。主要做法是:

    1. 利用语言模型进行预训练,举个例子:【我 喜欢 吃 西瓜。】输入【我】预测【喜欢】,输入【喜欢】预测【吃】。
    2. 在下游任务中调整网络各层输出的embedding的权重,比如,下游任务可以是:QA任务,情感分类任务等等。

    利用语言模型进行预训练
    在这里插入图片描述
    使用BILSTM,最大化下一个单词的概率,即:
    在这里插入图片描述
    其中的 Θ x \Theta_x Θx表示输入的word embedding, Θ s \Theta_s Θs表示softmax层的参数(预测词自然要加softmax层),他们是共享的。ELMO包含多个BiLSTM层,假设包含L个,那么会得到2L+1个表示:
    在这里插入图片描述
    其中 x k L M x_k^{LM} xkLM是对token直接编码的结果,后面的分量分别表示每一层向前或者向后的LSTM输出的结果。

    下游任务如何使用:
    在这里插入图片描述
    将2L+1个表示加权求和:
    在这里插入图片描述
    ELMO优缺点:

    优点:
    解决了多义词的问题
    在这里插入图片描述
    缺点:

    • LSTM作为特征提取器的效果没有transformer好。
    • ELMO 采取双向拼接这种融合特征的能力可能比 Bert 一体化的融合特征方式弱。

    GPT

    给出一个参考的链接:

    gpt2 英文介绍

    GPT2是自回归语言模型,就是有一大堆句子,对句子中的每个单词,使用前文预测后文。举个例子:【我 喜欢 吃 西瓜。】输入【我】预测【喜欢】,输入【喜欢】预测【吃】。GPT2使用的是transformer作为其特征提取器,为了方便说明,这里把transformer的模型结构贴过来:
    在这里插入图片描述
    原始的Transformer模型是由 Encoder部分和Decoder部分组成的,它们都是由多层transformer堆叠而成的。原始Transformer的seq2seq结构很适合机器翻译,因为机器翻译正是将一个文本序列翻译为另一种语言的文本序列。

    但如果要使用Transformer来解决语言模型任务,并不需要完整的Encoder部分和Decoder部分,于是在原始Transformer之后的许多研究工作中,人们尝试只使用Transformer Encoder或者Decoder,并且将它们堆得层数尽可能高,然后使用大量的训练语料和大量的计算资源(数十万美元用于训练这些模型)进行预训练。比如BERT只使用了Encoder部分进行masked language model(自编码)训练,GPT-2便是只使用了Decoder部分进行自回归(auto regressive)语言模型训练。
    在这里插入图片描述
    随着堆叠层数的增加,其参数量非常巨大:
    在这里插入图片描述
    在这里插入图片描述
    既然GPT2使用的是transformer的decoder部分,那么就来复习一下transformer的decoder block:
    在这里插入图片描述
    transformer的decoder与encoder不同,采用的是masked self-attention,这里的mask并非bert的[mask],而是在做self-attention运算时,会屏蔽掉未来单词的信息。

    GPT2 概述

    GPT2 能够处理1024个token,每个token沿着自己的路径经过所有的decoder层,GPT2的一个常用的用法是可以用来生成文本:
    在这里插入图片描述
    比如输入<s>和The,输出thing。这里需要注意的是,每次计算时都会保留之前计算过得token的编码的信息,这样就不会在接下来的计算中重复的计算

    GPT2详解

    输入编码
    token embedding:
    在这里插入图片描述
    positional embedding:
    在这里插入图片描述
    token+position:
    在这里插入图片描述
    多层Decoder:
    在这里插入图片描述
    Decoder中的self-attention

    A robot must obey the orders given it by human beings except where such orders would conflict with the First Law.

    在这里插入图片描述
    可以看出itarobot 之间的相关度比较高,说明it指代的是a robot

    self-attention的过程将在tansformer代码+原理中讲述。

    model output
    当模型顶部的Decoder层产生输出向量时(这个向量是经过 Self Attention 层和神经网络层得到的),模型会将这个向量乘以一个巨大的嵌入矩阵(vocab size x embedding size)来计算该向量和所有单词embedding向量的相关得分。这个相乘的结果,被解释为模型词汇表中每个词的分数,经过softmax之后被转换成概率。我们可以选择最高分数的 token(top_k=1),也可以同时考虑其他词(top k)。假设每个位置输出k个token,假设总共输出n个token,那么基于n个单词的联合概率选择的输出序列会更好。这样,模型就完成了一次迭代,输出一个单词。模型会继续迭代,直到所有的单词都已经生成,或者直到输出了表示句子末尾的 token。
    在这里插入图片描述

    GPT2 训练好怎么使用

    把下游任务的网络结构改造成和GPT的网络结构一样。然后,在做下游任务的时候,利用第一步预训练好的参数初始化GPT的网络结构,这样通过预训练学到的语言学知识就被引入到你手头的任务里来。再次,你可以用手头的任务去训练这个网络,对网络参数进行Fine-tuning,使得这个网络更适合解决手头的问题。

    面对花式的NLP问题,如何改造才能接近GPT的网络架构?
    在这里插入图片描述
    GPT论文给了一个改造施工图如上,其实也很简单:

    • 对于分类问题,不用怎么动,加上一个起始和终结符号即可;
    • 对于句子关系判断问题,比如Entailment,两个句子中间再加个分隔符即可;对文本相似性判断问题,把两个句子顺序颠倒下做出两个输入即可,这是为了告诉模型句子顺序不重要;
    • 对于多项选择问题,则多路输入,每一路把文章和答案选项拼接作为输入即可。

    从上图可看出,这种改造还是很方便的,不同任务只需要在输入部分施工即可。

    BERT

    BERT论文为:
    Bert:Bidirectional Encoder Representations from Transformers

    与GPT不同,bert采用的是transformer的encoder部分,且用到了句子上下文的信息(GPT只用了一个方向的信息)。
    在这里插入图片描述

    BERT如何做下游任务的改造

    在这里插入图片描述

    • a) 句子关系类任务:和GPT类似,加上一个起始和终结符号,句子之间加个分隔符即可。对于输出来说,把第一个起始符号对应的Transformer最后一层位置上面串接一个softmax分类层即可。
    • b) 分类任务: 只需要增加起始和终结符号,输出部分在[CLS]上加一个softmax。
    • c) QA任务: 输入为[cls]question[sep]document,输出是每个位置有两个softmax,分为输出start和end的概率。
    • d) 序列标注任务: 与分类任务不同的只是在每个单词位置加对应的分类层。

    BERT 如何训练

    BERT主要是训练两个任务:

    • mask prediction:输入[CLS]我 [mask] 中 [mask] 天 安 门[SEP],预测句子的[mask],多分类问题

    随机选择语料中15%的单词,把它抠掉,也就是用[Mask]掩码代替原始单词,然后要求模型去正确预测被抠掉的单词。但是这里有个问题:训练过程大量看到[mask]标记,但是真正后面用的时候是不会有这个标记的,这会引导模型认为输出是针对[mask]这个标记的,但是实际使用又见不到这个标记,这自然会有问题。为了避免这个问题,Bert改造了一下,15%的被上天选中要执行[mask]替身这项光荣任务的单词中,只有80%真正被替换成[mask]标记,10%被狸猫换太子随机替换成另外一个单词,10%情况这个单词还待在原地不做改动。这就是Masked双向语音模型的具体做法。

    • next sentence prediction:输入[CLS]a[SEP]b[SEP],预测b是否为a的下一句,即二分类问题;

    指的是做语言模型预训练的时候,分两种情况选择两个句子,一种是选择语料中真正顺序相连的两个句子;另外一种是第二个句子从语料库中抛色子,随机选择一个拼到第一个句子后面。我们要求模型除了做上述的Masked语言模型任务外,附带再做个句子关系预测,判断第二个句子是不是真的是第一个句子的后续句子。之所以这么做,是考虑到很多NLP任务是句子关系判断任务,单词预测粒度的训练到不了句子关系这个层级,增加这个任务有助于下游句子关系判断任务。所以可以看到,它的预训练是个多任务过程。这也是Bert的一个创新。

    因为bert及其变体有很多,在后面的博客中会更加详细的介绍bert系列。

    展开全文
  • Word embedding

    2021-08-01 11:30:39
    Word embedding 视频链接 Word embedding:词向量 dimension reduction:维数缩减 Word embedding 其实是 dimension reduction一个非常好、非常广为人知的应用。 如果我们今天要你用一个vector 来表示一个Word,你会...

    Word embedding

    视频链接

    Word embedding:词向量

    dimension reduction:维数缩减

    Word embedding 其实是 dimension reduction一个非常好、非常广为人知的应用。

    如果我们今天要你用一个vector 来表示一个Word,你会怎么做呢?

    最经典的做法叫做 1-of-N encoding

    image-20210428204552738

    每个word 对应的vector都不一样,但是从这个vector里面,你没有办法得到任何咨询。

    比如说 cat 和 dog 都是动物这件事。

    那怎么办呢?

    有一个方法叫做建 Word class

    把同样性质的Word cluster 成一群一群的,但class之间的关联没法表示

    所以我们需要Word embedding(下图右上角)

    Word embedding:把每一个word都project到一个high dimensional 的space 上面。

    在Word embedding上,我们可以看到的是 类似词义的词汇,在这个图上是比较接近的。而且每一个dimension,可能都有它特别的含义。

    image-20210428204934277

    比如说上图的横轴可能代表了生物与其他东西直接的差别,纵轴可能代表的跟动作有关的东西(动物会动)

    那怎么做Word Embedding 呢?

    Word Embedding 是一个unsupervised approach,也就是我们让machine知道每一个词汇的含义,是什么呢?

    你只要让machine通过阅读大量的文章,它就可以知道每一个词汇它的embedding 的feature vector 应该长什么样子

    我们要做的就是要learn 一个neural network 找一个function ,input是一个词汇,output就是那一个词汇所对应的Word Embedding的那一个vector。

    而我们手上有点training data就是一大堆文字,这个问题是没办法用auto-encoder来解的。

    那要怎么做呢?

    image-20210801093147339

    它基本的精神就是你要了解一个词汇的含义,可以通过看词汇的contest,每一个词汇的含义可以通过上下文来得到。

    那怎么用这个思想来找出Word Embedding 的vector 呢?

    有两个不同体系的做法 Count based VS Predition based

    Count based

    image-20210801093533306

    如果两个词常常一起出现,V(w)会比较接近

    我们希望V(wi)V(wj)的inner productwi wj 在同一文章出现的次数 这两件事越接近越好。

    Prediction-based

    它的想法是learn 一个neural network,它做的事情的prediction,predict什么呢?

    这个neural network做的事情是given前一个word,predict下一个可能出现的Word是谁。

    image-20210801095113086

    对于每个Word 我们动用 1-of-N encoding 可以把它表示成一个feature vector

    所以如果我们要做prediction ,就是learn 一个neural network ,input就是w(i-1) 1-of-N encoding 的feature vector,output急速下一个Word (wi) 是某一个Word的几率。 这个model 的output的dimension就是vector 的size。

    假设现在世界上有10万个Word 这个model的output就是10万维的,每一维代表l某一个Word是下一个word的几率。

    接下来,我们把第一个hidden layer的input拿出来,假设第一个dimension是z1…

    你input同一个词汇它有同样的1-of-N encoding在这边它的z就会一样,所以我们一共这个input 1-of-N encoding得到的Z的这个vector就可以来当做那一个Word的Embedding。

    为什么用Prediction-based 的方法就可以得到这样的vector呢?

    Prediction-based 是怎么根据上下文来了解一个词汇的含义呢?

    image-20210801100055648

    假设我们Training data里面

    有一个文章是 蔡英文(wi-1)宣誓就职(wi

    另一个文章是马英九(wi-1) 宣誓就职(wi

    你在训练Prediction model 的时候,不管是蔡英文,还是马英九 你都希望learn处理的结果是“宣誓就职”的几率比较大

    所以,你会希望说input 马英九 和蔡英文的时候,它output对应到“宣誓就职”那一个词汇,它的dimension 的几率是高的。

    为了要让不同的input 得到一样的output ,必须要让中间的hidden layer 把这两个不同的input,project 到同样的接近的空间

    如果只有(wi-1)去predict(wi)好像觉得太弱了,就算是人,你给一个词汇,去predict下一个词汇感觉也很难,下一个词汇的可能性是千千万万的,那怎么办呢?

    你可以轻易把这个model 拓展到N个词汇,一般我们,如果你真的要learn这样的Word vector的话,可能你的input 通常是至少10个词汇这样才能learn出比较reasonable 的结果。

    image-20210801102746390

    image-20210801102829270

    需要注意的是==(wi-2)的第一个dimension 跟第一个hidden layer的第一个neuron连接的weight== 和==(wi-1)的第一个dimension 跟第一个hidden layer的第一个neuron连接的weight== 必须是一样的。

    如果我们不这么做,你把同一个Word放在(wi-2)的位置很放在(wi-1)的位置通过这个transform以后他得到的Embedding就会不一样。

    还有一个好处是减少参数。

    在实做上,怎么样才能让W1 跟W2 他们的weight 都一样呢?

    事实上,我们在train CNN的时候也有同样的问题,我们也要让某一些参数,他们的weight必须是一样的

    那怎么做呢?

    image-20210801104310749

    首先要给wi 和 wj 一样的 initialization,训练的时候给他们一样的初始值

    然后在更新参数的时候减去对方更新的项,这样就能保持一致了。

    Prediction based 还有其它的变形:

    image-20210801105936528

    CBOW:我们拿某一个词汇的context 去predict中间这个词汇

    Skip-gram:拿wi去predict wi-1 跟wi+1

    注意:这个neural network不是deep的,只是一个hidden layer

    Word Embedding会得到一些有趣的特性
    image-20210801111848512

    image-20210801111904071

    如果B 是属于A的, 那 A-B的结果是会跟类似的。

    所以利用这个特性,我们可以做一些简单的推论:

    image-20210801112222115

    图像上的应用:

    image-20210801112505201

    展开全文
  • Unsupervised Learning: Word Embedding How to exploit the context? Prediction-based – Training Prediction-based – Language Modeling Prediction-based – Sharing Parameters Prediction-based – Various ...
  • 总结一下word embedding

    2022-04-03 21:33:30
    实现词向量的方式有word2vec, BERT,K-BERT等,还有一部分是用CNN实现. word2vec word2vec有两种不同的词向量生成模式,一种是CBOW(character box of word)另一种是Skip-temp模型,CBOW是利用前后词判断当前词,...
  • Word Embedding到Bert模型—自然语言处理中的预训练技术发展史.pdf
  • Word2Vec 与 Word Embedding的关系

    千次阅读 2020-11-02 12:16:46
    文章目录0、参考文章一、 DeepNLP的核心二、 ... 基于神经网络的分布表示五、 词嵌入(Word Embedding)1、概念2、理解六、 神经网络语言模型与word2vec七、扩展知识 0、参考文章 秒懂词向量Word2vec的本质 通俗理解wo
  • 1. 什么是word embedding (1)从word到num 我们的自然语言,不管是中文还是英文都不能直接在机器中表达,此时就要将自然语言映射为数字。要映射成数字就要有字典,所以一般会先构建词典,举例如下: word_dict = {...
  • word embedding(详细讲解word embedding

    千次阅读 2019-12-11 16:09:58
    机器经过阅读大量的words,将每个单词用vector表示,vector的...vector就是word embedding。 为了表示每个单词之间有联系,用二维vector来表示单词。可以更直观的看出每个单词的所属的类或者具有某种共同点。 ...
  • Semantic expansion using word embedding clustering and convolutional neural network for improving short text classification
  • 2--深度学习--word embedding 很宝贵的资料。超清晰ppt资源下载地址,适合深入学习机器学习和深度学习的人群。下载请慎重,10分。资源绝对宝贵,初学者请慎重下载。
  • title: date: 2020-10-20 07:56:09 author: liudongdong1 img: ...cover: false categories: NLP tags: - embedding TEXT processing deals with humongous amount of text to per.
  • Word Embedding是整个自然语言处理(NLP)中最常用的技术点之一,广泛应用于企业的建模实践中。我们使用Word Embedding能够将自然文本语言映射为计算机语言,然后输入到神经网络模型中学习和计算。如何更深入地理解...
  • Word Embedding到Bert模型—自然语言处理中的预训练技术发展史,用于资料备份,便与查阅。
  • Word Embedding 知识总结

    万次阅读 多人点赞 2019-04-15 12:44:26
    一. Word Embedding的基本概念 1.1 什么是Word Embedding?...如果将word看作文本的最小单元,可以将Word Embedding理解为一种映射,其过程是:将文本空间中的某个word,通过一定的方法,映射或者说嵌入(embe...
  • Word Embedding总结

    千次阅读 2019-12-06 14:17:55
    目录 1 概述 2 词的表示方法类型 2.1 词的独热表示one-hot representation 2.2词的分布式表示...GloVe模型(Global Vectors for Word Representation) 2.2.2基于聚类的分布表示 2.2.3 基于神经网络的分布...
  • 本文是李宏毅机器学习的笔记,这是第八节,介绍了RNN网络以及Word Embedding技术。 文章目录1. RNNLSTMApplicationsDeep & Structured2. Word Embedding 1. RNN 由于在一些场景中,我们需要考虑之前的输入,所以...
  •  通过上一个看得吃力的视频,现在word embedding给我的印象就是cv中的auto-encoder,只不过网络不一样。目测不难,接下来看个究竟。 word represent(word2vec) 1-of-N Encoding  cv中的one-hot。如果1w个单词,...
  • Embedding Patched与Word embedding 文章目录 系列文章目录 前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结 前言 VisionTransformer可以说火到不得不会的程度,而本人之前其实...
  • word embedding 在互联网中,每天都海量的文本信息。而NLP就是使用计算机处理自然语言的过程。 众所周知,computer只能处理数值,因此自然语言需要以一定的形式转化为数值,以供computer处理。 word embedding就是...
  • 什么是word embedding

    2022-01-06 19:59:44
    https://easyai.tech/ai-definition/word-embedding/#representation
  • word2vec和word embedding

    2020-06-23 18:33:03
    首先,word2vec 和 word embedding 两者并不是平级的,其都属于 语言表示(Representation)的范畴。 语言表示(Representation)是将人类的自然语言表示成计算机可以处理的数值形式,一般的方式有独热表示(one-hot...
  • Word Embedding 简述

    千次阅读 2018-07-29 13:25:51
    才是Word Embedding的首次提出,尝试将one-hot词表示通过前向神经网络映射成稠密表示。   noitce 3: 对分层softmax 和 NEG有个比较好的 博客 介绍。 GloVec   GloVec ,global vectors 弥补了全局和...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 29,360
精华内容 11,744
关键字:

wordembedding