精华内容
下载资源
问答
  • 您的用户在设置帐户时不应使用的常用词列表。 当您的应用程序或服务允许用户使用子域访问他们的帐户时,例如michaldudek.myapp.com ,阻止一些词很有用,这样他们就不会带走您将来想要使用的子域或更糟,请尝试欺骗...
  • 常用词向量对比

    千次阅读 2018-07-29 16:05:49
    常用词向量方法对比 本文测试常用的几个WordEmbedding方法,并对比效果 常用词向量 Word2Vec 这是通过上下文信息预测词向量方法的典型代表,主要包括CBOW和Skip-gram两种,测试用的是CBOW + NegtiveSampling ...

    常用词向量方法对比

    本文测试常用的几个WordEmbedding方法,并对比效果

    常用词向量

    1. Word2Vec

      这是通过上下文信息预测词向量方法的典型代表,主要包括CBOW和Skip-gram两种,测试用的是CBOW + NegtiveSampling

      代码:https://code.google.com/p/word2vec/

      论文:https://arxiv.org/pdf/1301.3781.pdf

    2. Glove

      利用统计的方法,对词及其上下文词的出现频率进行建模,论文还将模型原理与word2vec进行对比,分析其相似性和差异;

      原理上看,两种模型出发点相似,但是建模时损失函数设置与参数的形式有差异(理解得对吗?)

      代码:https://github.com/stanfordnlp/GloVe

      论文:http://nlp.stanford.edu/pubs/glove.pdf

    3. Fasttext

      fasttext做wordEmbedding的时候,认为词是由英文字母组成,包含相似的字母结构的词应该有共性,该方法借鉴Word2vec,增加词内字母的信息做辅助

      代码:https://github.com/facebookresearch/fastText

      论文:https://arxiv.org/pdf/1607.04606

    4. word2gm

      借鉴Word2vec,认为词在不同上下文中可能语义不同(多义词居多),一词对应一个vector不足以反映这类信息,考虑一词多个Embedding,借助高斯混合模型学习词的每个子向量

      代码:https://github.com/benathi/word2gm

      论文:https://arxiv.org/abs/1704.08424

    5. prob-fasttext

      fasttext考虑了字母信息,但是没考虑一词多义,将word2gm和fasttext的思想混合,每个词用2个embedding结果表示,其中一个是字母构成的embedding,一个是自身的embeeding,论文称,实验表明,2个embedding足以表示词的信息

      代码:https://github.com/benathi/multisense-prob-fasttext

      论文:https://arxiv.org/abs/1704.08424

    实验对比

    数据

    训练数据:
    1. 全部模型采用text8数据
    2. 链接:http://mattmahoney.net/dc/text8.zip

    测试数据:
    1. 词相似性(word similarity)

    大量公共数据集,直接采用prob-fasttext作者整理的
    
    1. 词类推(word analogy)

      采用Word2vec论文收集的数据集,分类使用Glove作者的结果

    关键参数

    1. vector-dimension:50

    2. winsize: 10

    3. iter:100 or 10 epoch

    结果对比

    1. word similarity
    datasetword2Vecglovefasttextword2gmprob-fasttext
    MTurk-77159.341.232.650.055.1
    simlex99927.314.622.520.024.9
    rw38.217.636.712.028.3
    mc62.341.734.047.846.2
    MTurk-28767.050.441.464.564.0
    men-3k66.139.131.256.264.1
    scwc63.347.955.254.367.2
    rg70.929.933.350.256.3
    yp39.830.419.720.723.7
    ws353-s72.844.644.961.066.6
    ws353-r65.549.435.749.453.8
    ws353-a69.843.941.054.258.9

    注:采用Spearman系数×100

    1. word analogy
    datasetword2Vecglovefasttextword2gmprob-fasttext
    capital-world39.2321.800.761.07-
    currency11.411.680.000.00-
    capital-common-countries66.2157.711.980.99-
    city-in-state25.4937.081.721.03-
    family45.0039.0519.762.62-
    gram1-adjective-to-adverb16.534.6471.070.20-
    gram2-opposite6.753.9766.530.00-
    gram3-comparative39.9426.5848.651.20-
    gram4-superlative15.125.8561.490.00-
    gram5-present-participle26.898.6255.970.38-
    gram6-nationality-adjective70.8148.4537.943.42-
    gram7-past-tense28.4610.3811.150.38-
    gram8-plural45.1217.1247.972.70-
    gram9-plural-verbs17.705.7551.260.69-
    Semantic34.8428.412.161.05-
    Syntactic33.2116.8747.001.17-
    Total33.8921.6728.341.12-

    注明:
    (1)以上均是Top1 accuracy,百分比(%)
    (2)prob-fasttext未做实验

    结果分析及与论文结果对比

    1. Glove

      原文效果:

      (1)两个任务下,原文效果明显优于实验效果

      glove-similarity

      glove-analogy

      分析:

      (1)实验的训练样本比论文的小,Glove通过统计频率来建模,数据量大时模型更General,销量数据对统计的结果影响大,论文中,当同时使用Wikipedia 2014 + Gigaword 5时,Glove效果优于CBOW

    2. fasttext

      原文效果:

      (1)词相似:模型效果优于CBOW

      fasttext-similarity

      (2)词类推:语义部分,模型效果略低于CBOW; 语法部分,模型效果显著优于CBOW

      fasttext-analogy

      分析:

      (1)词相似:模型效果远低于CBOW,一方面是训练数据不一致(论文采用Wikipedia),一方面可能论文对参数进行啦精细调优,实验直接采用作者提供的demo

      (2)词类推:实验效果与论文相仿,语义部分效果远低于CBOW,语法部分效果明显更佳

    3. word2gm

      原文效果:

      (1)词相似:SCWC数据集上,50维spearman系数为66.2,效果优于word2vec

      word2gm-similarity

      (2)词类推:论文没有使用word2vec论文公布的数据集,而是采用Baroni et al(2012),该数据集考虑词之间包含关系,评估标准采用F1-score

      分析:
      (1)词相似:论文采用UKWAC和Wackpedia数据集联合训练模型,而论文中word2vec效果仅61.7,比用text8训练效果还差??

      (2)词类推:word2vec采用Top1 Accuracy,从实验效果上看,word2gm不适合这种评估标准,效果很差;猜测是词对应多个Embedding,一方面保证词的多义性,另一方面单纯用词距离,无法从Top1中得到对应相关的词,因为可能有其他语义的词距离和它与这种距离相近

    4. prob-fasttext

      原文效果:论文主要对比fasttext和word2gm,效果最优

      prob-fasttext-similarity

      分析:

      (1)词相似性上,试验结果符合论文预期;

      (2)词相似性上,增加子词分解,多语义模拟后,效果竟不及word2vec,一方面证明word2vec算法的泛化能力,一方面text8的数据量可能不足以证明效果

      (3)词类推上,模型与word2gm有相似之处,估计top1的词类推不会有很好的效果

    结论

    (1)word2vec泛化能力较强,小数据量下依然展示较好的鲁棒性

    (2)基于统计词频的模型对数据量的依赖可能较大,小数据下模型效果一般

    (3)试验结果而言,小数据量下复杂模型不能展现很好的效果(符合认知),结合论文上看,模拟词的多义性,词内子词结构将对embedding有明显的效果提升

    结语

    以上都是我瞎扯的,欢迎大家指正

    展开全文
  • WordCloud中屏蔽+背景色设置

    千次阅读 2019-07-20 18:14:55
    利用python的wordcloud包生成词云是一个很实用的技能,最近在绘制词云的过程中又学会了如何屏蔽不想要出现的设置更丰富的背景图,特别是背景颜色的设置很多资料都是一笔带过,语焉不详,好在经过痛苦的摸索之后...

    利用python的wordcloud包生成词云是一个很实用的技能,最近在绘制词云的过程中又学会了如何屏蔽不想要出现的词及设置更丰富的背景图,特别是背景颜色的设置很多资料都是一笔带过,语焉不详,好在经过痛苦的摸索之后终于被我找到了方法,原谅我激动的心情,啰嗦了这么多(捂脸。。。)

    from PIL import Image
    import numpy as np
    from wordcloud import WordCloud,STOPWORDS, ImageColorGenerator
    from matplotlib import pyplot as plt
    import jieba

    with open('bigdata.txt', 'r') as f:
        text = f.read()
    bigdata = " ".join(jieba.cut(text))  

    cloud_mask = np.array(Image.open("data.png"))
    #生成wordcloud对象
    wc = WordCloud(background_color=(135,206,250),     #背景色,除了写'blue'等还可以调整参数来设置更为丰富的色彩!
        mask=cloud_mask,
        stopwords = STOPWORDS.add("数据"),       #屏蔽词,屏蔽掉“数据”这个词
        scale=10,
        max_words=2000,
        font_path="simsun.ttc",   #此处需要python环境中有对应TXT文件中读取的字体;
        min_font_size=6,
        max_font_size=40, 
        width=600,
        height=300
        )
    wc.generate(bigdata)
    wc.to_file("bigdata9.png")

    输出图形

     

    展开全文
  • ing我们知道很多时候加在动词后面是表示进行时,但...ing后缀常用词 including 包含 according 相符的 依照 meeting 会议 training 训练 feeling 感觉 painting 绘画 interesting 有趣的 beginning 开始 willin

    ing我们知道很多时候加在动词后面是表示进行时,但很多动词加ing也可以变成一个形容词或名词. 同样ed一般表过去式,但也能做形容词

     

    ing后缀常用词

    including 包含

    according 相符的 依照

    meeting 会议

    training 训练

    feeling 感觉

    painting 绘画

    interesting 有趣的

    beginning 开始

    willing 乐意的

    understanding 了解 理解的

    thbuilding 建筑

    sing 演唱

    evening 晚上

    spring 春天

    ting 东西

    something 某事

    during 在某期间

    boring 厌烦的

    nothing  无,没

    anything 任何事

    morning 早上

    everything 每件事

    living 生活 活的

    growing 发展的

    learning 学习

    following 跟随 下面的

    finding 发现

    writing 书写

    reading 阅读

    meaning 意义

    teaching 教学

    being 存在

    ring 戒指

    thinking 思考

    hearing 听力

    setting 设置

    rating 等级

    wing 飞翔

    opening 开始

    fishing 渔业 捕鱼

    warning 警告

    funding 提供资金

    housing 房屋

    existing 目前的

    regarding 关于

    remaining 剩下的

    planning  规划

    wedding 婚礼

    leading 领导

    saving 节约

    marketing 销售

    amazing 令人吃惊的

    parking 停车

    spending 开销

    king 国王

    increasing 增加 越来越多的

    engineering 工程

    swing 摇摆

    testing 测试

    drawing  绘图

    developing 发展 发展中的

    ceiling 天花板

    advertising 广告

    clothing 服装

    string 线

    shopping 购物

    hunting 打猎

    surprising 令人吃惊的

    working 工作

    shooting 射击

    exciting 令人兴奋的

    dining 吃饭

    depending 依赖

    ongoing 前进 不间断的

    standing 站立 长期的

    bombing 轰炸

    manufacturing 制造 制造的

    operating 操作

    running 跑 连续的

    fighting 战斗

    cooking 烹饪

    killing 杀戮的

    recording 录音 记录的

    changing 改变 变化的

    concerning 涉及

    counseling 咨询服务

    trading 交易

    serving 服务

    drinking 喝

    missing 失踪的

    overwhelming 压倒性的

    walking 步行

    continuing 继续的

    landing 登陆

    driving 驾驭

    timing 定时

    promising 许偌 有希望的

    reporting 报告

    starting 开始

    eating 吃 食物

    accounting 会计 会计学

    suffering 苦楚 受苦

    banking 银行业

    offering 提供

    gathering 聚集

    outstanding 杰出的

    ruling 统治 统治的

    processing 加工 处理

    burning 燃烧 燃烧的

    voting 投票

    fascinating 迷人的

    underlying 潜在的

    rolling 旋转的

    sibling 兄弟姐妹

    passing 经过

    encouraging 令人鼓舞的

    surrounding 环境 周围的

    swimming 游泳

    Thanksgiving 感恩节

    emerging 新兴的  形成

    breathing 呼吸

    well-being 幸福

    lighting 闪电的

    dying 死

    striking 打 显著地

    fucking 他妈的

    cling 坚持

    programming 设计

    blessing 祝福

    screening 筛选

    dancing 跳舞

    coming 到来

    disturbing 令人不安的

    devastating 毁灭性的

    neighboring 临近的

    lighting 照明

    compelling 强制的

    flying 飞行

    managing 管理 管理的

     

     

    ed后缀常用词

    concerned 关心的

    involved 有观的

    supposed 假定的

    interested 感兴趣的

    united 联合的

    married 已婚的

    used 习惯的

    surprised 吃惊的

    tired 疲倦的

    limited 有限的

    increased 增强的

    succeed 成功

    so-called 所谓的

    armed 武装的

    complicated 复杂的

    advanced 先进的

    scared 害怕的

    proposed 被提议的

    sophisticated 富裕经验的

    detailed 详细的

    naked 裸体的

    gifted 有天赋的

    worried 担心的

    continued 继续的

    exceed 超过

    related 相关的

    excited 兴奋的

    pleased 高兴的

    estimated 估计的

    unexcepted 意外的

    retired 退休的

    closed 结束的

    convinced 确信的

    provided 假如

    disappointed 失望的

    shared 共享的

    talented 有才能的

    extended 延伸的

    alleged 所谓的

    improved 改进的

    associated 关联的

    combined 联合的

    mixed 混合的

    fixed 固执的

    experienced 有经验的

    dried 干燥的

    unprecedented 空前的

    disabled 残废的

    required 必须的

    depressed 沮丧的

    perceived 感知到的

    added 更多的

    embarrassed 尴尬的

    isolated 孤立的

    old-fashioned 过时的

    crowded 拥挤的

    integrated 综合的

    troubled 动乱的

    balanced 平衡的

    skilled 熟练的

    organized 有组织的

    selected 挑选出来的

     

    展开全文
  • mac系统下的词典设置

    千次阅读 2013-08-20 00:56:32
    windows下最爽的有道词典,在mac下实在是无力啊,各种取不了,chrome浏览器刚刚加强了安全措施,导致有道的插件无效,无奈自己折腾了一下,发现了 http://www.douban.com/note/170136382/ 这个帖子里面的方法还...

    windows下最爽的有道词典,在mac下实在是无力啊,各种取不了词,chrome浏览器刚刚加强了安全措施,导致有道的插件无效,无奈自己折腾了一下,发现了

    http://www.douban.com/note/170136382/

    这个帖子里面的方法还不错,但是太旧了,所以自己查了一下里面工具(DictUnifier)的最新版本——2.1,支持lion系统,但是帖子里面的词典链接都已经失效了,所以搜索了一下,发现这些词典跟我在ubuntu里面用的stardict软件是一样的词典,那我就不陌生了哈。

    这里更新一下这些词典的地址,具体使用方法请看原帖

    词典请看下面的网页:

    http://abloz.com/huzheng/stardict-dic/PowerWord/2007/

    网页中对应的选项在新系统应该是这样的:



    这里也可以下载到最好用德朗道词典http://ishare.iask.sina.com.cn/f/22382059.html


    展开全文
  • Vim常用设置

    千次阅读 2014-03-12 13:29:11
    如下是一个一些常用设置项,基本保证了一些正常的使用。 在linux下安装Vim,然后打开/etc/vim/vimrc进行编辑,将下列配置直接复制粘贴进去,保存关闭之后再重新打开Vim就可以看到修改的效果。 "=============...
  • vscode常用设置

    千次阅读 2018-06-03 22:20:22
    vscode常用设置, 不同版本可能配置项不太一样. { "editor.fontFamily" : "Monaco, Consolas, 'Courier New', monospace" , "editor.tabSize" : 2 , "editor.insertSpaces" : true , "workbench....
  • 1.文本的词性标注 词性作为一种语义特征通常:名词 n...按照偏正结构,汉字通常是形容在前名词(中心)在后,所以我们使用的方法通常是使文字和右边的结合看是否是中心,然后再把左边 的看成修饰 3.未登录
  • oracle常用设置

    千次阅读 2014-05-30 17:08:15
    对象类型可以是表,视图,同义,存储过程和函数等。根据对象类型的不同,弹出的菜单也有区别。表和视图有View, Edit, Rename, Drop, Query data 和Edit data等功能。View和Edit分别是查看和修改表的结构信息,如...
  • wireless常用缩写

    千次阅读 2014-12-19 13:12:53
    常用的加密算法有AES和TKIP。 TLS (transport layer security) 传输层安全模式,包括TLS记录协议和TLS握手协议。 BSS (Basic server set) 基础服务集合,一种特殊的ad_hoc应用,一群计算机设定...
  • vsftp常用设置

    千次阅读 2004-12-09 14:15:00
    1、设置欢迎消息#/etc/vsftpd/vsftpd.confdirmessage_enable=YES然后在主目录下建.message文件,写入欢迎。2、修改默认端口#/etc/vsftpd/vsftpd.conflisten_port=21213、取消anonymous登录#/etc/vsftpd/vsftpd....
  • 系统 -> 系统基本参数 ->互动设置 -> 在“禁用词语”和“替换词语”填写内容                 
  • 布尔逻辑检索 利用布尔逻辑算符进行检索或代码的逻辑组配,是现代信息检索系统中最常用的一种技术。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。2. 截检索 截检索是...
  • codeblocks快捷键及常用设置

    万次阅读 2016-11-08 19:23:49
    相关设置:Mouse Drag Scrolling。 • Ctrl+D可复制当前行或选中块。 • Ctrl+Shift+C注释掉当前行或选中块,Ctrl+Shift+X则解除注释。 • Tab缩进当前行或选中块,Shift+Tab减少缩进。 • 可拖动选中块使其移动...
  • 停止(stop word)和禁用搜索

    千次阅读 2009-10-05 20:14:00
    什么是禁用搜索? 今天的主题,可能作为高手SEO都已经懂了,那么请高手忽略! 首先,我们看下什么是停止。停止,是由英文单词:stopword翻译过来的,原来在英语里面会遇到很多a,the,or等使用频率很多的字或...
  • 在现在市场大环境的影响下,越来越多的开发者选择了产品出海,比如Google Play应用市场。那么产品成功出海之后,随之而来的肯定就是一系列的...3、常用工具 一、词汇头脑风暴 大家都知道,对于ISO而言核心的是...
  • 一、写在前面国产的IM、搜索引擎以及输入法,甚至是杀毒软件,...大概去年的时候试着开始用Google 拼音输入法,但是当时它的用户体验让我感觉不爽,字的匹配不尽如人意,和搜狗差得太多了,只好无奈卸载掉,并期待
  • 已经恢复出厂设置很多次了,和小米不好比 不是人人能做手机的 看来 说他烂不至于,就是用它测试android 也 会经常 连不上pc 还不给root ,有空还要root 才好看sqlite 数据库 内容是否正确  ...
  • source insight 常用设置和快捷键

    千次阅读 2015-08-04 10:54:38
    /************************************* 常用设置 ********************************/ 1.括号配对高亮: “在前括号左侧,后括号左侧” 双击鼠标左键,可以选定匹配括号和其中内容(   2.让{ 和 ...
  • AI翻译+搜索: AI翻译按质量和热度综合排名。调用:金山翻译,阿里翻译,百度翻译,搜狗翻译,腾讯翻译,彩云小译,DeepL,沪江日语词典等。 搜索包含:知乎,b站,微博,百科,wiki,youtube,twitter等。 ...
  • 通过程序打开Android常用系统设置界面 Android软件时,常常需要打开系统设置或信息界面,来设置相关系统项或查看系统的相关信息,这时我们就可以使用以下语句来实现:(如打开“无线和网络设置”界面)  Intent...
  • pl/sql developer常用设置

    万次阅读 2012-09-19 16:12:21
    1. PL/SQL Developer记住登陆密码  在使用PL/SQL Developer时, ...  设置方法:  PL/SQL Developer->tools->Preferences->Oracle->Logon History,  在右边界面的"Definition"中,"Store his
  • Code::Blocks代码自动提示设置常用快捷键(适用windows和linux)1)以下需要设置的地方均在Settings->Editor...弹出的对话框中。2)不少命令都可针对当前行或选中的代码块,下文简称当前行或选中块。==日常...
  • PL/SQL Developer常用命令和设置

    千次阅读 2016-10-24 21:10:08
    2、设置关键字自动大写:Tools->Preferences->Editor,将Keyword case选择Uppercase。这样在窗口中输入sql语句时,关键字会自动大写,而其它都是小写。这样阅读代码比较容易,且保持良好得编码风格,同理,在
  • 常用设置: 去掉波浪线: settings -> Editor -> Colors & Fonts -> General -> TYPO->Effects 显示行号: settings -> Editor->Appearance->Show line numbers  去掉右上角浏览器图标: settings -> tools -> ...
  • 但是设置之后有些快捷键与idea的混淆了,有些冲突了,还有些是idea特有的快捷键,在这里就整理了一份idea转成eclipse风格之后常用的快捷键,每个快捷键本人都亲测有效,在此记录以供以后查验,并且在使用中发现新的...
  • 安装了intellij idea后,不熟悉新的环境,参考了...1.常用快捷键 分类 功能点 IDEA快捷键 搜索 搜索文本 Ctrl + F Ctrl + R 查找替换 Alt + P/A 逐个/全部替换 Alt + F3 查找当前...
  • * 云拼音:使用网络词库,最近的一些流行,以及一些专业术语也能打出来,弥补了词库更新不及时的弊端。 使用下面的命令安装,也可以在后面自行添加要安装的组件 sudo apt-get install fcitx fcitx-google...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 126,080
精华内容 50,432
热门标签
关键字:

如何设置常用词