词向量 订阅
词向量(Word embedding),又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。 从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。生成这种映射的方法包括神经网络,单词共生矩阵的降维,概率模型,可解释的知识库方法,和术语的显式表示 单词出现的背景。当用作底层输入表示时,单词和短语嵌入已经被证明可以提高NLP任务的性能,例如语法分析和情感分析。 展开全文
词向量(Word embedding),又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。 从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。生成这种映射的方法包括神经网络,单词共生矩阵的降维,概率模型,可解释的知识库方法,和术语的显式表示 单词出现的背景。当用作底层输入表示时,单词和短语嵌入已经被证明可以提高NLP任务的性能,例如语法分析和情感分析。
信息
外文名
Word embedding
中文名
词向量
词向量技术的发展
在语言学中,在分布语义学的研究领域中讨论了词嵌入。它旨在基于语言数据的大样本中的分布属性来量化和分类语言项之间的语义相似性。 Firth普及了“一个词以其所保持的特征为特征”的基本观点。将词语表示为向量的技术起源于20世纪60年代随着用于信息检索的向量空间模型的发展。使用奇异值分解减少维数,然后导致在20世纪80年代后期引入潜在语义分析。2000年Bengio等人。在一系列论文中提供了“神经概率语言模型”,通过“学习单词的分布式表示”来减少语境中单词表示的高维度。 (Bengio等,2003)。单词嵌入有两种不同的风格,一种是将单词表示为共同出现的单词的向量,另一种是将单词表示为单词出现的语言上下文的向量;研究了这些不同的风格(Lavelli等,2004)。Roweis和Saul在“科学”杂志上发表了如何使用“局部线性嵌入”(LLE)来发现高维数据结构的表示。该区域在2010年后逐渐发展并真正起飞,部分原因是此后在向量质量和模型训练速度方面取得了重要进展。有许多分支机构和许多研究小组从事字嵌入工作。 2013年,由Tomas Mikolov领导的Google团队创建了word2vec,这是一个嵌入式工具包,可以比以前的方法更快地训练向量空间模型。大多数新词嵌入技术依赖于神经网络架构而不是更传统的n-gram模型和无监督学习。
收起全文
精华内容
下载资源
问答

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 99,475
精华内容 39,790
关键字:

词向量