精华内容
下载资源
问答
  • 多的同义词近义词
    千次阅读
    2020-11-28 13:34:08

    python中怎样处理汉语的同义词用结巴分词

    python中文分词:结巴分词

    中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点:

    基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)

    采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

    对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法

    安装(Linux环境)

    下载工具包,解压后进入目录下,运行:python setup.py install

    模式

    默认模式,试图将句子最精确地切开,适合文本分析

    全模式,把句子中所有的可以成词的词语都扫描出来,适合搜索引擎

    接口

    组件只提供jieba.cut 方法用于分词

    cut方法接受两个输入参数:

    第一个参数为需要分词的字符串

    cut_all参数用来控制分词模式

    待分词的字符串可以是gbk字符串、utf-8字符串或者unicode

    jieba.cut返回的结构是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),也可以用list(jieba.cut(...))转化为list

    实例

    #! -*- coding:utf-8 -*-

    import jieba

    seg_list = jieba.cut("我来到北京清华大学", cut_all = True)

    print "Full Mode:", ' '.join(seg_list)

    seg_list = jieba.cut("我来到北京清华大学")

    print "Default Mode:", ' '.join(seg_list)

    请问在结巴分词后,如何获取关键词的同义词或近义词呢?

    请问什幺叫结巴分词

    jieba分词怎样 去掉或替换 默认词库里的词

    >>>seg_list = jieba.cut("他来到了杭研大厦")

    >>>print ", ".join(seg_list)

    他, 来到, 了, , 杭研, 大厦

    这是Python版的使用示例

    python jieba分词如何去除停用词

    -*- coding: utf-8 -*-

    import jieba

    import jieba.analyse

    import sys

    import codecs

    reload(sys)

    sys.setdefaultencoding('utf-8')

    #使用其他编码读取停用词表

    #stoplist = codecs.open('../../file/stopword.txt','r',encoding='utf8').readlines()

    #stoplist = set(w.strip() for w in stoplist)

    #停用词文件是utf8编码

    stoplist = {}.fromkeys([ line.strip() for line in open("../../file/stopword.txt") ])

    #经过分词得到的应该是unicode编码,先将其转成utf8编码

    结巴分词获取关键词时怎幺过滤掉一些停用词

    是使用extract_tags函数,这个函数会根据TF-IDF算法将特征词提取出来,在提取之前会去掉停用词,可以人工指定停用词字典,代码如下:

    jieba.analyse.set_stop_words('D:\\Python27\\stopword.txt')

    tags = jieba.analyse.extract_tags(text,20)

    jieba把他词典中的某个词删掉,但是再分词时还会出现这个词,怎幺处理。。。

    我也遇到这种情况,然后向我上面那幺做的就好了!Python程序猿加油.,我查到一个网页说他用Python3,才输出该词,但是不是用代码保存的.7还没有试。建议楼主再调整一下编码试试吧,在代码中加了几个比较明显的停用词组成的list.10,使用Notpad.7,估计问题都差不多了吧,当分出来的词不在list里的时候.4就好了,Python2.3,所以搜到了这个问题. 楼主加油,然后停用词文件也是用的utf-8保存的,结果就成功的停用了list里的所有词.。我最开始数据都是用GB2312处理的,查了很多东西也没有个结果.4,因为停用词没反应,后来用结巴分词看文档上说用好用utf-8编码,我最开始用的是Python2,可是一样不能用,就写了段代码把文本改成utf-8了。后来,之后就一直不能停用文件里的词。另外,我又换了Python3我觉得可能还是编码不对吧

    jieba分词怎幺导入自定义词库

    1.您可以选择不登陆搜狗输入法账户;2.在输入法上点右键进入设置>账户,里面可以关闭自动同步

    在python 环境下,使用结巴分词,自动导入文本,分词,提取关键词.脚本 大侠给个

    # -*- coding: utf-8 -*-

    import jieba

    import jieba.posseg as pseg

    import jieba.analyse

    #jieba.load_userdict('userdict.txt')#jieba默认有一个dict.txt词库,但可以根据自己需要加入自己的词条

    str1 = "训练一个可进行N维分类的网络的常用方法是使用多项式逻辑回归"

    str2 = "可以尝试修改网络架构来准确的复制全连接模型"

    str3 = "模型的目标函数是求交叉熵损失和所有权重衰减项的和,loss()函数的返回值就是这个值"

    seg_list = jieba.cut(str1,cut_all =True) #全模式

    print("/".join(seg_list))

    result = pseg.cut(str1)

    result2 = jieba.cut(str2) #精准模式

    result3 = jieba.analyse.extract_tags(str3,4) #关键词提取

    result4 = jieba.cut_for_search(str3) #搜索引擎模式

    for w in result:

    print(w.word,w.flag)

    print(" ".join(result2))

    print(" ".join(result3))

    print(" ".join(result4))

    python读取文本用jieba分词后保存到另外一个文本

    XlsxWriter-masterxlrd 用这两个模块,一个写,一个读,非常方便。

    更多相关内容
  • 收集汇总去重整理后的一万三千同义词近义词替换库,方便伪原创同义词替换使用!同义词都经过人工整理过,错误很少,但也难免有不少量不准确的,也请大家谅解
  • 2万条中文近义词同义词词库,部分如下格式: {"name": "深远", "nearWords": ["深刻", "长久", "长远", "久远", "深入", "永远", "悠久", "远大", "深切"]}, {"name": "尺书", "nearWords": ["函件", "信件", ...
  • txt格式,一组同义词占一行,个之间用英文逗号分隔,前后都有逗号。形如:“,后继有人 ,后来居上 ,后来者居上 ,后起之秀 ,略胜一筹 ,棋高一着 ,青出于蓝,”。 注意是9836组,不是9836条,已经归类绝无重复。去除了...
  • 用于伪原创的同义词近义词库,4万条都在一个txt文档里,每行都是一组同义词
  • 从一万八千个同义词收集汇总去重整理后精选的三千四百同义词近义词替换库,方便伪原创同义词替换使用!同义词都经过人工整理过,错误很少,但也难免有不少量不准确的,也请大家谅解
  • 火车头采集和伪原创使用的同义词近义词库4万条,txt文件以空格和逗号分割共二个文件,火车头可以直接用
  • 同义词,近义词库

    2016-04-14 15:33:19
    收集网络上个版本的同(近)义词库, nlp, 数据挖掘等使用
  • es搜索同义词近义词技术方案

    千次阅读 2021-11-03 18:56:29
    使用同义词文件,在es索引中定义"synonyms_path",并设置updateable为true动态更新同义词,但这个需要运维一起配合,当有新增的同义词时候,也需要运维帮我们添加进这个文件中,维护比较不方便 PUT /myIndex { ...

    方案一:

    使用同义词文件,在es索引中定义"synonyms_path",在服务器中放入同义词文件synonyms.txt文件,并设置updateable为true动态读取更新的同义词文件,但这个需要运维一起配合,当有业务有新增同义词时候,也需要运维帮我们添加进这个文件中,维护比较不方便

    PUT /myIndex
    {
      "settings": {
        "analysis": {
          "filter": {
            "my_synonym_filter": {
              "type": "synonym",
              "updateable": true,
              "synonyms_path": "analysis/synonyms.txt"
            }
          },
          "analyzer": {
            "my_synonyms_analyzer": {
              "tokenizer": "ik_smart",
              "filter": [
                "my_synonym_filter"
              ]
            }
          }
        }
      },
      "mappings": {
        "properties": {
          "title": {
            "type": "text",
            "analyzer": "ik_smart",
            "search_analyzer": "my_synonyms_analyzer"
          }
        }
      }
    }
    

    查看腾讯云关于同义词配置的文档,关于同义词的添加,也同样需要对现有索引进行reindex操作
    在这里插入图片描述

    主要讲一下方案二,直接在我们建的索引上进行维护同义词

    方案二:同义词技术方案

    es建索引时,我们可以给es创建一个同义词语汇单元过滤器,然后使用下面这样的同义词规则:

    “衬衫, 衬衫料, 衬衣料, 衬衣”

    例子:

    1、创建普通索引

    先创建一个普通的索引,并增加2条数据,对“海马毛”进行分词,可以得到“海马”,“毛”

    在这里插入图片描述

    {
      "索引名" : {
        "aliases" : {
        //索引别名
        },
        "mappings" : {
          "properties" : {
          //索引字段
          }
        },
        "settings" : {
            "number_of_shards" : "3",
            "max_result_window" : "100000000",
            "analysis" : {
              "filter" : {
                "my_synonym" : {
                  "ignore_case" : "true",
                  "expand" : "true",
                  "type" : "synonym",
                  "synonyms" : [
                    "马海毛,海马毛"
                  ],
                  "tokenizer" : "standard"
                }
              },
              "analyzer" : {
                "ik_max_word_my_analyzer" : {
                  "filter" : [
                    "my_synonym"
                  ],
                  "tokenizer" : "ik_max_word_tokenizer"
                }
              },
              "tokenizer" : {
                "ik_max_word_tokenizer" : {
                  "type" : "ik_max_word"
                }
              }
            }
          }
        }
      }
    
    

    进行match检索,发现也只能召回出一条数据

    在这里插入图片描述

    但是,业务上如果要认为在搜索上,输入海马毛的检索效果跟马海毛的一样,那么就需要给es配置同义词

    2、创建含有同义词过滤器的es索引

    es配置同义词的格式有多种,最简单的就是使用逗号分割
    
    "jump,leap,hop"(推荐)
    
    或者, 使用 => 语法,可以指定一个词项列表(在左边),和一个或多个替换(右边)的列表:
    
    "u s a,united states,united states of america => usa"
    或者,扩展
    "kitten => kitten,cat,pet"
    

    关于自定义分析器,可参考官方文档https://www.elastic.co/guide/cn/elasticsearch/guide/current/custom-analyzers.html
    在这里插入图片描述

    自定义分析器后,我们增加再对“海马毛”进行分词
    在这里插入图片描述

    发现同义词已经生效了,这个时候,我们在检索“海马毛”时候,也可以召回到“马海毛”的数据
    在这里插入图片描述
    后期维护:

    后续业务如果还需要一直添加同义词,对es来说,是需要reindex进行操作

    reindix操作的操作在我另一篇博客有详细描述:传送门

    如果只是单纯修改settings,那么只会对改索引新增的文档数据有效,对旧数据无效

    展开全文
  • 2022年最新版的同义词词库资源,数据两万条,无重复,大部分手工整理,可作为同义词词典使用,可作seo伪原创,自媒体洗稿等使用。格式为:按照 依照。
  • 同义词挖掘一般有三种思路,借助已有知识库,上下文相关性,文本相似度。 1.1 知识库 可以借助已有知识库得到需要同义词,比如说《哈工大信息检索研究室同义词词林扩展版》和 HowNet,其中《词林》文件数据如下。 ...

    一、简介

    同义词挖掘一般有三种思路,借助已有知识库,上下文相关性,文本相似度。

    1.1 知识库

    可以借助已有知识库得到需要同义词,比如说《哈工大信息检索研究室同义词词林扩展版》和 HowNet,其中《词林》文件数据如下。

    Aa01A01= 人 士 人物 人士 人氏 人选
    Aa01A02= 人类 生人 全人类
    Aa01A03= 人手 人员 人口 人丁 口 食指
    Aa01A04= 劳力 劳动力 工作者
    Aa01A05= 匹夫 个人
    Aa01A06= 家伙 东西 货色 厮 崽子 兔崽子 狗崽子 小子 杂种 畜生 混蛋 王八蛋 竖子 鼠辈 小崽子
    Aa01A07= 者 手 匠 客 主 子 家 夫 翁 汉 员 分子 鬼 货 棍 徒
    Aa01A08= 每人 各人 每位
    Aa01A09= 该人 此人
    

    以上两个知识库是人工编辑的,毕竟数量有限,我们还可以借助众包知识库百科词条获取同义词,比如百度百科,如下图所示,在百度百科搜索“凤梨”,我们可以看到在返回页面结果中的 info box中有一个属性为“别称”,别称中就是凤梨的同义词。除此之外,在百科词条的开头描述中,有如下描述“又称”、“俗称”也是同义词,我们可以利用爬虫把这些词爬下来。

    百度搜索和谷歌搜索等搜索工具一般都有重定向页,这也可以帮助我们去挖掘同义词。

    使用知识库挖掘同义词的优点是简单易得,而且准确率也高,缺点就是知识库覆盖率有限,不是每个细分领域都有。对于金融、医疗、娱乐等领域都需要各自的知识库。

    1.2  上下文相关性

    利用上下文相关性挖掘同义词也比较好理解,如果两个词的上下文越相似的话,那么这两个词是同义词的概率就越大。使用词向量挖掘同义词是比较常见的做法,比如使用word2vector训练得到词向量,然后再计算余弦相似度,取最相似的top k个词,就得到了同义词。

    word2vector是无监督学习,而且本质上来说它是一个语言模型,词向量只是它的副产品,并不是直接用来挖掘同义词。有篇paper发明了弱监督的同义词挖掘模型DPE,也取得了不错的效果。DPE模型流程如下图,一共分为两个阶段,第一阶段跟word2vector差不多,也是训练词向量,只不过DPE是一种graph embedding的思路,首先从语料中构建语义共现网络,然后通过对网络的边采样训练词向量。第二阶段通过弱监督训练一个打分函数,对输入的一对词判断属于同义词的概率。感兴趣的可以看看这篇paper 论文链接

    基于上下文相关性的同义词挖掘方法的优点是能够在语料中挖掘大量的同义词,缺点是训练时间长,而且挖掘的同义词很多都不是真正意义上的同义词需要人工筛选。这种方法对于词频较高的词效果较好。

    1.3 文本相似度

    对于这一对同义词“阿里巴巴网络技术有限公司”和“阿里巴巴网络公司”直接去计算上下文相似度可能不太有效,那一种直观的方法是直接计算这两个词的文本相似度,比如使用编辑距离(Levenshtein distance)或者 LCS(longest common subsequence),如果两个词的文本相似度大于阈值的话我们就认为他们是同义词的关系。在这里推荐一个计算文本相似度的Java开源项目,基本上文本相似度算法应有尽有。[ 文本相似度算法 ]

    基于文本相似度同义词挖掘方法的优点是计算简单,不同于word2vector,这种方法不需要使用很大的语料,只要这个词出现过一次就可以发现同义词关系。这种方法的缺点是有时候不太靠谱,会挖掘出很多错误的同义词,尤其是当两个词比较短的情况下,比如“周杰伦”和“周杰”,就可能会被认为是同义词。所以这种方法适用于一些较长的文本,特别是专业词汇,术语。

    二、同义词挖掘的算法实现

    github地址:https://github.com/tigerchen52/synonym_detection

    在这个github项目中实现了4种同义词挖掘的方法:

    1. 百度百科同义词
    2. word2vector 
    3. 语义共现网络的节点相似度
    4. Levenshtein距离

    觉的有用同学记得点star~~

    2.1 百度百科同义词

    代码示例(synonym_detection/source/main.py)

    def baike_invoke():
        import baike_crawler_model
        print(baike_crawler_model.baike_search(('凤梨', '001')))
    
    if __name__ == '__main__':
        baike_invoke()

    输出

    ['菠萝皮', '地菠萝', '菠萝', '草菠萝']

    2.2 word2vector 

    在这里使用《三体》小说作为训练语料,使用以下10个词作为输入,从语料中挖掘这10个词的同义词。后面几个方法使用相同的输入。

    1|海王星
    2|女孩
    3|椅子
    4|海军
    5|阵列
    6|变化
    7|程心
    8|火焰
    9|天空
    10|建造

     代码示例

    python synonym_detect -corpus_path  ../input/三体.txt -input_word_path ../temp/input_word.txt -process_number 2 if_use_w2v_model True

    参数

    • -corpus_path 为语料文件,使用三体小说作为训练语料
    • -input_word_path 输入词表,对词表中的词进行同义词挖掘。文件中每行以“|”作为分隔符,第一列是id,第二列是输入词
    • -process_number 2 进程数量
    • -if_use_w2v_model True 使用word2vector模型
    • 默认返回top 5个同义词

    输出

    1	海王星	海王星|土星|天王星|背面|金星
    3	椅子	椅子|办公桌|地板|地毯|铁锹
    2	女孩	女孩|中年人|女孩儿|女子|泪光
    9	天空	天空|晨光|夜空|暮色|漆黑
    4	海军	海军|军种|服役|事务性|政工
    6	变化	变化|隐隐约约|异常|微妙|所致
    5	阵列	阵列|矩形|一千公里|环|标示出
    7	程心	程心|AA|艾|当程心|曹彬
    8	火焰	火焰|暗红|山脉|灼热|变幻
    10	建造	建造|天梯|最小|准|航空母舰

    2.2 语义共现网络的节点相似度

    语义共现网络本质是根据上下文构建的图,图中的节点是词,边是这个词的上下文相关词。对于语义共现网络的两个节点,如果这两个节点的共同邻居节点越多,说明这两个词的上下文越相似,是同义词的概率越大。例如,对于《三体》小说中的两个词“海王星”和“天王星”,在《三体》语义共现网络中,“海王星”和“天王星”的邻居节点相似度很高,则说明两个词是同义词的可能性很高。如下图所示:

    代码示例

    python synonym_detect -corpus_path  ../input/三体.txt -input_word_path ../temp/input_word.txt -process_number 2 -if_use_sn_model True
    

    输出

    5	阵列	阵列|矩形|队列|星体|量子
    9	天空	天空|中|夜空|太阳|消失
    4	海军	海军|航空兵|服役|空军|失败主义
    10	建造	建造|制造|加速器|飞船|太阳系
    3	椅子	椅子|桌子|坐下|沙发|台球桌
    1	海王星	海王星|天王星|土星|卫星|群落
    7	程心	程心|AA|中|罗辑|说
    8	火焰	火焰|光芒|光点|推进器|雪峰
    2	女孩	女孩|接待|冲何|请云|女士
    6	变化	变化|发生|意味着|恢复|中

    可以看出基于语义共现网络得到的同义词与word2vector结果类似,甚至在某些词上效果更好。

    2.4 Levenshtein距离

    代码示例

    python synonym_detect -corpus_path  ../input/三体.txt -input_word_path ../temp/input_word.txt -process_number 2 -if_use_leven_model True
    

    输出

    1	海王星	海王星|冥王星|天王星|星|王
    7	程心	程心|请程心|带程心|连程心|从程心
    6	变化	变化|变化很大|动态变化|发生变化|化
    3	椅子	椅子|子|筐子|村子|棒子
    2	女孩	女孩|女孩儿|女孩子|小女孩|女
    10	建造	建造|建造成|造|建|建到
    5	阵列	阵列|列|阵|历列|列为
    9	天空	天空|海阔天空|空|天|天马行空
    8	火焰	火焰|火|焰|火星|野火
    4	海军	海军|于海军|陆海空军|海|海军军官

     2.5 DPE模型

    undo

    展开全文
  • 同义词近义词大全 abandon, desert, forsake, leave, give up  这些动词或词组均含"抛弃、放弃"之意  abandon 强调永远或完全放弃或抛弃人或事物等,这可能是被迫的,也可能是自愿的。  desert 着重指违背法律...
  • 在搜索引擎中,我们会碰到大量的同义词需求。用户在描述同一个东西的时候,会有各种各样的描述。 在电商搜索环境中,同义词分成好几类: 1. 品牌同义词:nokia=诺基亚,Adidas=阿迪达斯 2. 产品同义词:投影仪...

    在搜索引擎中,我们会碰到大量的同义词需求。用户在描述同一个东西的时候,会有各种各样的描述。

          在电商搜索环境中,同义词分成好几类:

         1. 品牌同义词:nokia=诺基亚,Adidas=阿迪达斯

         2. 产品同义词:投影仪≈投影机,电话≈cell phone; automobile 和car。

         3.旧词和新词:自行车  -> 脚踏车

         4.南方用词和北方用词:番茄-> 西红柿。

         5.传统的同义词:储物柜和收纳柜。

         6.错别字同义词:瑜伽和瑜珈(错误写为斜王旁)

           对应英文来说,还有词干提取,如单复数、动词原形和ing形式;英文还有一个特殊的现象,例如两个单词可以分开写,也可以合并在一起,例如keychain和key chian(钥匙链),boyfriend 和boy friend。

           近义词就比较多了: 包括size 大码≈大号;短裤和热裤;边疆和边疆。

          上位词:苹果手机上位词 是手机。

           反义词:宽松和修身。当我们做query改写的时候,改写千万不能改写出反义词。

     

           如果我们仔细观察,我们会发现有的词可以互相替换,有些词是只能单向替换(换一个方向就不对了,例如周杰伦可以替换为周董,但是周董只能在一定情况下替换为周董)。

    如何挖掘得到同义词呢?

            我们可以从用户搜索词、商品标题、搜索和点击来获取。最根本的来源还是商家对商品标题的优化,聪明的商家会把同义词堆叠在标题中,以期望获取到更多的流量。

            从点击日志上看,如果w1和w2是同义词,那么搜索w1和搜索w2,理论上会有大量的共同点击的商品x1、x2、x3等等。

             标题商品标题得到大量的语料,例如投影仪和投影机,拉杆箱(draw bar box)和旅行箱(luggage)。

     

           通过统计或者word2vec训练词的相关性,找到高相关度的词。统计这些词在标题中共同出现次数,即w1和w2的共现次数。

    以下代码查看word2vec的效果


    fromgensim.test.utilsimportcommon_texts,get_tmpfile

    fromgensim.modelsimportWord2Vec

    model_path="./data/word2vec_en_50d.model"

    model=Word2Vec.load(model_path)

    model.wv['computer']

    Out[6]:

    array([-0.48867282, -0.10507897, -0.23138586, -0.10871041,  0.1514824 ,

          -0.01487145, -0.385491  ,  0.01792672, -0.32512784, -0.9063424 ,

          -0.5428677 ,  0.6565156 ,  0.02183418,  0.07939139,  0.03485253,

            0.319492  , -0.27633888,  0.52685845, -0.0582791 , -0.4844649 ,

            0.249212  ,  0.8144138 , -0.03233343, -0.36086813,  0.34835583,

          -0.07177112,  0.0828275 ,  0.6612073 ,  0.74526566, -0.12676844,

          -0.08891173, -0.08520225, -0.04619604,  0.13580324,  0.183159  ,

            0.15528682,  0.01727525, -0.43599448, -0.2579532 , -0.23192754,

          -0.32965428,  0.09547858,  0.00419413, -0.06285212,  0.18150753,

          -0.21699691,  0.60977536, -0.06555454,  0.35746607, -0.06610812],

          dtype=float32)

    In[13]:

    model.wv.similarity('case','cover')    # case 和cover在描述手机壳的时候基本是同义词

    Out[13]:

    0.8538678

    In[22]:

    defget_top_sim(word):

    similary_words=model.wv.most_similar(word,topn=10)

    forw,sinsimilary_words:

    print(word,"=",w,s)

    get_top_sim('case')

    case = holder 0.8879926800727844

    case = clamshell 0.887456476688385

    case = tablet 0.8748524188995361

    case = storage 0.8703626990318298

    case = carrying 0.8672872185707092

    case = hardcase 0.8580055236816406

    case = carring 0.8558304309844971

    case = seal 0.8552369475364685

    case = cover 0.8538679480552673

    case = stand 0.8476276993751526

     

            通过word2vec,我们可以找出原始词和最相似的10个单词,然后我们统计origin 和substitute(原始词和替代词)在标题中的共现次数,通过这种挖掘,我们找到大量的候选词对,这种词通过人工review可以作为同义词的候选。

           对这种情况稍微做一些扩展,我们就能得到同义query到同义query之间的对应关系。


            统计分析上位词,统计每个商品类目下的产品词,出现次数top n的产品词w,对应到商品的类目词c,那么w -> c很可能 就是一个上位词关系。

    人工词表

           在维护词表的时候,我们一定不能忘记人工词表。人工词表的维护必须要有后台工具。

    我们如何应用人工词表:

            1、在商品标题对应的索引词中做同义词扩展,当不用不管用同义词的哪一个来搜索的时候都可以搜索到。

            2、在QueryProcess模块中,对词做同义词扩展、做近义词改写,改写出来的近义词的权重要比原始词的权重更小。在改写中,我们还会遇到一个问题,Q(分词为w1,w2,w3)改写成q1(w1,w2)和q2(w2,w3)的时候,我们会遇到q1和q2分别和Q如何计算相关性的问题。

             3、当query 做同义词改写的时候,需要一些词做context(上下文)。如“周董的新歌”可以修改为“周杰伦的新歌”,但是“周董的公司”就未必是周杰伦的公司了。

     

    参考文献:

    1、搜索引擎同义词反馈机制【百度搜索研发部】

    2、https://www.docin.com/p-1136208118.html

    3、面向检索信息的同义词挖掘

    展开全文
  • 网上收集近15万同义词库、近义词库,经过小编收集整理,将很意思关联不大的词语已经去除,适合火车头采集器,ET采集器,DZ插件类采集器等
  • 同义词词库.txt

    2019-05-17 08:54:19
    2.5W条无重复同义词近义词词库!本人的基本都是重复的到你想哭!
  • 更好的中文近义词:聊天机器人,智能问答工具包。 synonyms可以用于自然语言理解的很任务:文本对齐,推荐算法,相似度计算,语义转换,关键字提取,概念提取,自动摘要,搜索引擎等。 表中的内容: 欢迎 pip ...
  • 同义词已经分词,txt文本格式。格式类似于:baidu 百度 下的了,积分自动上涨,挺坑。我本来就是要求1分下载的。
  • 原论文:《Automatic Synonym Discovery with Knowledge Bases》 背景知识 ...3)监督/弱监督方法,训练一个同义词分类器,检测出固定的句式pattern来挖掘同义词,但也需要依赖人工精细的选择一些种子训练
  • synonyms可以用于自然语言理解的很任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。
  • 同义词的处理方法: 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏 ... 去重复 去反意词 合并词条 a,b>>> a,b,c,d,... ...tonitsi1_deduli_deFei.txt ...│ 6同义词近义词大全.tx │ 近反义词.doc
  • 6.4万个同义词.rar

    2018-01-04 12:29:33
    个词库的去重整理,28万超全词库,excel表整理完毕,留有词性分辨栏,可自行处理。 中文分词词库,42537条伪原创词库,dict.txt,fingerDic.txt,httpcws_dict.txt,out.txt,百度分词词库.txt,词库地址.txt,词库下载...
  • Elasticsearch之自定义同义词开发实践

    千次阅读 2021-12-13 09:39:58
    1.什么是同义词查询 ES(Elasticsearch)作为一个开源的、高扩展的分布式全文检索引擎,具有近实时的索引、搜索和分析等优点。用户在使用ES时,主要青睐其快速的查询性能。不同于传统的数据库,它具有非常灵活的...
  • 本人手工整理的,数量大概在60000个左右,因为词比较,所以没办法一个人核对,是否完全都是同义近义词.但是数量上是没打折扣的,绝对没有重复的,实打实六万干货. 有需要的朋友下载吧,我自己之前也下载过几个号称十...
  • 魂动罗java源码 Jcseg完整版本(源码, 词库, 帮助文档, 词库管理工具, jar文件)下载: 一. 关于jcseg: jcseg是使用Java开发的一个开源中文分词器,使用流行的mmseg算法...中英文同义词追加/同义词匹配 + 中文词条拼音追
  • 我正在创建一个同义词列表,我将它存储在数据库中并在进行全文搜索之前检索它.当用户输入如下:word1我需要在我的同义词表中查找这个单词.所以,如果找到这个单词,我会选择这个单词的所有同义词,并在下一个查询的全文...
  • 数据库中的同义词synonym

    千次阅读 2021-01-18 18:58:27
    一、Oracle数据只有一个实例(简单理解就是Oracle 只能建立一个数据库,不像...二、Oracle中可以建立个用户,那么这些用户刚建立是得授权的,不让没有权限做任何事情,(举个栗子:用户 ‘AA’ 是授权的DBA用户,...
  • 同义词词林》是梅家驹等人于1983年编纂而成,年代较为久远,对于目前的使用不太适合,哈工大实验室基于该词林进行扩展,完成了词林扩展版。 下载地址:https://www.ltp-cloud.com/download/ 二、使用说明 扩展...
  • 伪原创词库收集网络上个版本的同(近)义词库, nlp, 数据挖掘,伪原创词库等使用 28913条
  • 同义词/近义词更新时间:2022-07-11 03:01:49接口状态:正常根据词查询近义词请求地址 HTTPGET/POSThttps://www.maitanbang.com/api/similarword/index 调 试请求参数请求结果参数说明

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,697
精华内容 678
热门标签
关键字:

多的同义词近义词