精华内容
下载资源
问答
  • 该词典描述的是一些分析,用于分词,利用给定的中英文文本序列(见 Chinese.txt 和 English.txt),分别利用以下给定的中英文分词工具进行分词并对不同分词工具产生的结果进行简要对比分析。
  • 常用英文停用(NLP处理英文必备),常见基础语气、代词、疑问等等,在做文本相关比赛或者学习自然语言处理知识时必备
  • 很全的中英文对照,包括电子部分和机械部分,非常有用
  • 在开发分词系统的时候常用的中英文停用词表,可以用来去掉分词结果中的停用,常见的的分词系统可以使用结巴分词或者中科院的NLPIR。
  • 英语3000常用词用法详细讲解词典上.doc
  • 英语常用词教学卡通图片PPT课件.pptx
  • 高考英语常用词词性转换及派生.doc
  • 高考英语常用词词性转换与派生.doc
  • 中考英语完形填空常用词PPT课件.pptx
  • # 中文情感分析常用词典 该库收集了包含 * 知网Hownet情感词典 * 台湾大学NTUSD简体中文情感词典 * 清华大学李军中文褒贬义词典 * BosonNLP
  • 目前最常用的中文主流情感词典: 台湾大学NTUSD+知网Hownet词典下载 可用作NLP入门学习 不用手工构建情感词典 非常方便
  • 英语常用3500音频(音频文件)
  • 常用词向量对比

    千次阅读 2018-07-29 16:05:49
    常用词向量方法对比 本文测试常用的几个WordEmbedding方法,并对比效果 常用词向量 Word2Vec 这是通过上下文信息预测词向量方法的典型代表,主要包括CBOW和Skip-gram两种,测试用的是CBOW + NegtiveSampling ...

    常用词向量方法对比

    本文测试常用的几个WordEmbedding方法,并对比效果

    常用词向量

    1. Word2Vec

      这是通过上下文信息预测词向量方法的典型代表,主要包括CBOW和Skip-gram两种,测试用的是CBOW + NegtiveSampling

      代码:https://code.google.com/p/word2vec/

      论文:https://arxiv.org/pdf/1301.3781.pdf

    2. Glove

      利用统计的方法,对词及其上下文词的出现频率进行建模,论文还将模型原理与word2vec进行对比,分析其相似性和差异;

      原理上看,两种模型出发点相似,但是建模时损失函数设置与参数的形式有差异(理解得对吗?)

      代码:https://github.com/stanfordnlp/GloVe

      论文:http://nlp.stanford.edu/pubs/glove.pdf

    3. Fasttext

      fasttext做wordEmbedding的时候,认为词是由英文字母组成,包含相似的字母结构的词应该有共性,该方法借鉴Word2vec,增加词内字母的信息做辅助

      代码:https://github.com/facebookresearch/fastText

      论文:https://arxiv.org/pdf/1607.04606

    4. word2gm

      借鉴Word2vec,认为词在不同上下文中可能语义不同(多义词居多),一词对应一个vector不足以反映这类信息,考虑一词多个Embedding,借助高斯混合模型学习词的每个子向量

      代码:https://github.com/benathi/word2gm

      论文:https://arxiv.org/abs/1704.08424

    5. prob-fasttext

      fasttext考虑了字母信息,但是没考虑一词多义,将word2gm和fasttext的思想混合,每个词用2个embedding结果表示,其中一个是字母构成的embedding,一个是自身的embeeding,论文称,实验表明,2个embedding足以表示词的信息

      代码:https://github.com/benathi/multisense-prob-fasttext

      论文:https://arxiv.org/abs/1704.08424

    实验对比

    数据

    训练数据:
    1. 全部模型采用text8数据
    2. 链接:http://mattmahoney.net/dc/text8.zip

    测试数据:
    1. 词相似性(word similarity)

    大量公共数据集,直接采用prob-fasttext作者整理的
    
    1. 词类推(word analogy)

      采用Word2vec论文收集的数据集,分类使用Glove作者的结果

    关键参数

    1. vector-dimension:50

    2. winsize: 10

    3. iter:100 or 10 epoch

    结果对比

    1. word similarity
    datasetword2Vecglovefasttextword2gmprob-fasttext
    MTurk-77159.341.232.650.055.1
    simlex99927.314.622.520.024.9
    rw38.217.636.712.028.3
    mc62.341.734.047.846.2
    MTurk-28767.050.441.464.564.0
    men-3k66.139.131.256.264.1
    scwc63.347.955.254.367.2
    rg70.929.933.350.256.3
    yp39.830.419.720.723.7
    ws353-s72.844.644.961.066.6
    ws353-r65.549.435.749.453.8
    ws353-a69.843.941.054.258.9

    注:采用Spearman系数×100

    1. word analogy
    datasetword2Vecglovefasttextword2gmprob-fasttext
    capital-world39.2321.800.761.07-
    currency11.411.680.000.00-
    capital-common-countries66.2157.711.980.99-
    city-in-state25.4937.081.721.03-
    family45.0039.0519.762.62-
    gram1-adjective-to-adverb16.534.6471.070.20-
    gram2-opposite6.753.9766.530.00-
    gram3-comparative39.9426.5848.651.20-
    gram4-superlative15.125.8561.490.00-
    gram5-present-participle26.898.6255.970.38-
    gram6-nationality-adjective70.8148.4537.943.42-
    gram7-past-tense28.4610.3811.150.38-
    gram8-plural45.1217.1247.972.70-
    gram9-plural-verbs17.705.7551.260.69-
    Semantic34.8428.412.161.05-
    Syntactic33.2116.8747.001.17-
    Total33.8921.6728.341.12-

    注明:
    (1)以上均是Top1 accuracy,百分比(%)
    (2)prob-fasttext未做实验

    结果分析及与论文结果对比

    1. Glove

      原文效果:

      (1)两个任务下,原文效果明显优于实验效果

      glove-similarity

      glove-analogy

      分析:

      (1)实验的训练样本比论文的小,Glove通过统计频率来建模,数据量大时模型更General,销量数据对统计的结果影响大,论文中,当同时使用Wikipedia 2014 + Gigaword 5时,Glove效果优于CBOW

    2. fasttext

      原文效果:

      (1)词相似:模型效果优于CBOW

      fasttext-similarity

      (2)词类推:语义部分,模型效果略低于CBOW; 语法部分,模型效果显著优于CBOW

      fasttext-analogy

      分析:

      (1)词相似:模型效果远低于CBOW,一方面是训练数据不一致(论文采用Wikipedia),一方面可能论文对参数进行啦精细调优,实验直接采用作者提供的demo

      (2)词类推:实验效果与论文相仿,语义部分效果远低于CBOW,语法部分效果明显更佳

    3. word2gm

      原文效果:

      (1)词相似:SCWC数据集上,50维spearman系数为66.2,效果优于word2vec

      word2gm-similarity

      (2)词类推:论文没有使用word2vec论文公布的数据集,而是采用Baroni et al(2012),该数据集考虑词之间包含关系,评估标准采用F1-score

      分析:
      (1)词相似:论文采用UKWAC和Wackpedia数据集联合训练模型,而论文中word2vec效果仅61.7,比用text8训练效果还差??

      (2)词类推:word2vec采用Top1 Accuracy,从实验效果上看,word2gm不适合这种评估标准,效果很差;猜测是词对应多个Embedding,一方面保证词的多义性,另一方面单纯用词距离,无法从Top1中得到对应相关的词,因为可能有其他语义的词距离和它与这种距离相近

    4. prob-fasttext

      原文效果:论文主要对比fasttext和word2gm,效果最优

      prob-fasttext-similarity

      分析:

      (1)词相似性上,试验结果符合论文预期;

      (2)词相似性上,增加子词分解,多语义模拟后,效果竟不及word2vec,一方面证明word2vec算法的泛化能力,一方面text8的数据量可能不足以证明效果

      (3)词类推上,模型与word2gm有相似之处,估计top1的词类推不会有很好的效果

    结论

    (1)word2vec泛化能力较强,小数据量下依然展示较好的鲁棒性

    (2)基于统计词频的模型对数据量的依赖可能较大,小数据下模型效果一般

    (3)试验结果而言,小数据量下复杂模型不能展现很好的效果(符合认知),结合论文上看,模拟词的多义性,词内子词结构将对embedding有明显的效果提升

    结语

    以上都是我瞎扯的,欢迎大家指正

    展开全文
  • 手机测试常用英语常用词.)excel版
  • 【韦氏词典】美国最常用3000英语词汇 Merriam-Webster core 3,000 Core Vocabulary Words
  • 精品教育教学资料
  • 日常英语常用词

    2013-06-08 09:07:53
    日常遇到的英语单词...知道这些,基本交流没问题啦
  • 简历中的各种词汇、语料、节段-乔布简历——148个简历常用行为词 整理比较的Excel表,原文收集了148个常用...希望本资料用少数常用词的熟练中英文对照表达,提供更方便有效的简历写作,帮助写出比较地道的英文简历来。
  • 常用英文缩略.doc

    2021-10-07 08:47:10
    常用英文缩略.doc
  • 整理的常用的停用词表,此词表包含各种特殊字符、英文乱码、无用数字
  • 常用英语反义.doc

    2021-10-12 19:34:57
    常用英语反义.doc
  • 常用英语缩略.doc

    2021-09-26 21:23:05
    常用英语缩略.doc
  • 英语常用3500.doc

    2021-10-06 10:42:13
    英语常用3500.doc
  • 外贸英语 常用词用法 txt文档 电子书
  • Absolute deviation, 绝对离差 Absolute number, 绝对数 Absolute residuals, 绝对残差 Acceleration array, 加速度立体阵 Acceleration in an arbitrary direction, 任意方向上的加速度 Acceleration normal, 法向...
  • <2> TTS语音引擎:现今大部分英语软件都采用了该引擎。 微软的TTS语音引擎技术,可支持单词,句子,文章的 朗读功能;并支持单词,句子,文章的复制和粘贴。 如果您想使用它,请先到我的网站下载TTS语音引擎...
  • 化学常用英文缩写.doc
  • 英文文本情感分析中非常出名的情感词典sentiwordnet,适用于NLP
  • 小学英语常用反义.pdf

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 67,455
精华内容 26,982
关键字:

常用词英语