精华内容
下载资源
问答
  • TihuanWords.txt文档格式 注意:同一行的词用单个空格隔开... # synonymWords.txt是同义词表,每行是一系列同义词,用空格分割 for line in open(TihuanWords.txt, r, encoding='utf-8'): seperate_word = line.str
  • SEO百度优化伪原创常用汉字同义词近意词替换词库字典TXT文件下载
  • python同义词替换

    2020-12-15 17:14:48
    {"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技术人对外发布原创技术内容的最大平台;社区覆盖了云计算、大数据、人工智能、...

    {"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技术人对外发布原创技术内容的最大平台;社区覆盖了云计算、大数据、人工智能、IoT、云原生、数据库、微服务、安全、开发与运维9大技术领域。","link1":"https://developer.aliyun.com/group/?spm=a2c6h.12883283.1377930.25.7287201c9RKTCi&groupType=other","link":"https://developer.aliyun.com/","icon":"https://img.alicdn.com/tfs/TB1TlXBEkT2gK0jSZPcXXcKkpXa-200-200.png","btn2":"开发者藏经阁","tip":"打通开发者成长路径,学习中心 。全线阿里云技术大牛公开课,立即查看","btn1":"技术与产品技术圈","link2":"https://developer.aliyun.com/topic/ebook?spm=a2c6h.12883283.1362932.15.7287201c9RKTCi","title":"阿里云开发者社区"}],"search":[{"txt":"学习中心","link":"https://developer.aliyun.com/learning?spm=a2c6h.13788135.1364563.41.299f5f24exe3IS"},{"txt":"技能测试中心 ","link":"https://developer.aliyun.com/exam?spm=a2c6h.13716002.1364563.42.6cac18a3JWCM5U"},{"txt":"开发者云 ","link":"https://developer.aliyun.com/adc/?spm=a2c6h.13716002.1364563.59.6b0818a3DV0vzN"},{"txt":"在线编程 ","link":"https://developer.aliyun.com/coding?spm=5176.13257455.1364563.57.701e7facHvqi5r"},{"txt":"学习中心 ","link":"https://developer.aliyun.com/learning?spm=a2c6h.12883283.1364563.41.5f1f201c5CLDCC"},{"txt":"高校计划 ","link":"https://developer.aliyun.com/adc/college/?spm=a2c6h.13716002.1364563.58.6cac18a3JWCM5U"}],"countinfo":{"search":{"length_pc":0,"length":0},"card":{"length_pc":0,"length":0}}}

    {"$env":{"JSON":{}},"$page":{"env":"production"},"$context":{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技术人对外发布原创技术内容的最大平台;社区覆盖了云计算、大数据、人工智能、IoT、云原生、数据库、微服务、安全、开发与运维9大技术领域。","link1":"https://developer.aliyun.com/group/?spm=a2c6h.12883283.1377930.25.7287201c9RKTCi&groupType=other","link":"https://developer.aliyun.com/","icon":"https://img.alicdn.com/tfs/TB1TlXBEkT2gK0jSZPcXXcKkpXa-200-200.png","btn2":"开发者藏经阁","tip":"打通开发者成长路径,学习中心 。全线阿里云技术大牛公开课,立即查看","btn1":"技术与产品技术圈","link2":"https://developer.aliyun.com/topic/ebook?spm=a2c6h.12883283.1362932.15.7287201c9RKTCi","title":"阿里云开发者社区"}],"search":[{"txt":"学习中心","link":"https://developer.aliyun.com/learning?spm=a2c6h.13788135.1364563.41.299f5f24exe3IS"},{"txt":"技能测试中心 ","link":"https://developer.aliyun.com/exam?spm=a2c6h.13716002.1364563.42.6cac18a3JWCM5U"},{"txt":"开发者云 ","link":"https://developer.aliyun.com/adc/?spm=a2c6h.13716002.1364563.59.6b0818a3DV0vzN"},{"txt":"在线编程 ","link":"https://developer.aliyun.com/coding?spm=5176.13257455.1364563.57.701e7facHvqi5r"},{"txt":"学习中心 ","link":"https://developer.aliyun.com/learning?spm=a2c6h.12883283.1364563.41.5f1f201c5CLDCC"},{"txt":"高校计划 ","link":"https://developer.aliyun.com/adc/college/?spm=a2c6h.13716002.1364563.58.6cac18a3JWCM5U"}],"countinfo":{"search":{"length_pc":0,"length":0},"card":{"length_pc":0,"length":0}}}}

    展开全文
  • python中怎样处理汉语的同义词用结巴分词python中文分词:结巴分词中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点:基于Trie树结构实现高效的词图扫描,生成句子中汉字...

    python中怎样处理汉语的同义词用结巴分词

    python中文分词:结巴分词

    中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点:

    基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)

    采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

    对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法

    安装(Linux环境)

    下载工具包,解压后进入目录下,运行:python setup.py install

    模式

    默认模式,试图将句子最精确地切开,适合文本分析

    全模式,把句子中所有的可以成词的词语都扫描出来,适合搜索引擎

    接口

    组件只提供jieba.cut 方法用于分词

    cut方法接受两个输入参数:

    第一个参数为需要分词的字符串

    cut_all参数用来控制分词模式

    待分词的字符串可以是gbk字符串、utf-8字符串或者unicode

    jieba.cut返回的结构是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),也可以用list(jieba.cut(...))转化为list

    实例

    #! -*- coding:utf-8 -*-

    import jieba

    seg_list = jieba.cut("我来到北京清华大学", cut_all = True)

    print "Full Mode:", ' '.join(seg_list)

    seg_list = jieba.cut("我来到北京清华大学")

    print "Default Mode:", ' '.join(seg_list)

    请问在结巴分词后,如何获取关键词的同义词或近义词呢?

    请问什幺叫结巴分词

    jieba分词怎样 去掉或替换 默认词库里的词

    >>>seg_list = jieba.cut("他来到了杭研大厦")

    >>>print ", ".join(seg_list)

    他, 来到, 了, , 杭研, 大厦

    这是Python版的使用示例

    python jieba分词如何去除停用词

    -*- coding: utf-8 -*-

    import jieba

    import jieba.analyse

    import sys

    import codecs

    reload(sys)

    sys.setdefaultencoding('utf-8')

    #使用其他编码读取停用词表

    #stoplist = codecs.open('../../file/stopword.txt','r',encoding='utf8').readlines()

    #stoplist = set(w.strip() for w in stoplist)

    #停用词文件是utf8编码

    stoplist = {}.fromkeys([ line.strip() for line in open("../../file/stopword.txt") ])

    #经过分词得到的应该是unicode编码,先将其转成utf8编码

    结巴分词获取关键词时怎幺过滤掉一些停用词

    是使用extract_tags函数,这个函数会根据TF-IDF算法将特征词提取出来,在提取之前会去掉停用词,可以人工指定停用词字典,代码如下:

    jieba.analyse.set_stop_words('D:\\Python27\\stopword.txt')

    tags = jieba.analyse.extract_tags(text,20)

    jieba把他词典中的某个词删掉,但是再分词时还会出现这个词,怎幺处理。。。

    我也遇到这种情况,然后向我上面那幺做的就好了!Python程序猿加油.,我查到一个网页说他用Python3,才输出该词,但是不是用代码保存的.7还没有试。建议楼主再调整一下编码试试吧,在代码中加了几个比较明显的停用词组成的list.10,使用Notpad.7,估计问题都差不多了吧,当分出来的词不在list里的时候.4就好了,Python2.3,所以搜到了这个问题. 楼主加油,然后停用词文件也是用的utf-8保存的,结果就成功的停用了list里的所有词.。我最开始数据都是用GB2312处理的,查了很多东西也没有个结果.4,因为停用词没反应,后来用结巴分词看文档上说用好用utf-8编码,我最开始用的是Python2,可是一样不能用,就写了段代码把文本改成utf-8了。后来,之后就一直不能停用文件里的词。另外,我又换了Python3我觉得可能还是编码不对吧

    jieba分词怎幺导入自定义词库

    1.您可以选择不登陆搜狗输入法账户;2.在输入法上点右键进入设置>账户,里面可以关闭自动同步

    在python 环境下,使用结巴分词,自动导入文本,分词,提取关键词.脚本 大侠给个

    # -*- coding: utf-8 -*-

    import jieba

    import jieba.posseg as pseg

    import jieba.analyse

    #jieba.load_userdict('userdict.txt')#jieba默认有一个dict.txt词库,但可以根据自己需要加入自己的词条

    str1 = "训练一个可进行N维分类的网络的常用方法是使用多项式逻辑回归"

    str2 = "可以尝试修改网络架构来准确的复制全连接模型"

    str3 = "模型的目标函数是求交叉熵损失和所有权重衰减项的和,loss()函数的返回值就是这个值"

    seg_list = jieba.cut(str1,cut_all =True) #全模式

    print("/".join(seg_list))

    result = pseg.cut(str1)

    result2 = jieba.cut(str2) #精准模式

    result3 = jieba.analyse.extract_tags(str3,4) #关键词提取

    result4 = jieba.cut_for_search(str3) #搜索引擎模式

    for w in result:

    print(w.word,w.flag)

    print(" ".join(result2))

    print(" ".join(result3))

    print(" ".join(result4))

    python读取文本用jieba分词后保存到另外一个文本

    XlsxWriter-masterxlrd 用这两个模块,一个写,一个读,非常方便。

    展开全文
  • 70000同义词,70000近义词,替换表。完美实现伪原创,站群更新专用
  • NLP数据预处理——同义词替换程序

    万次阅读 2018-07-18 23:46:01
    自然语言数据预处理中经常会涉及到同义词替换,比如计算两个句子的相似度中,把一个词的两个同义词利用同义词替换技术转换为同一个词,那么就提高了相似度计算的可靠性。学习自然语言处理的同学肯定都会做到数据...

    自然语言数据预处理中经常会涉及到同义词替换,比如计算两个句子的相似度中,把一个词的两个同义词利用同义词替换技术转换为同一个词,那么就提高了相似度计算的可靠性。学习自然语言处理的同学肯定都会做到数据预处理的工作,下面分享我最近写的一个程序,希望能为从事同样工作的同学提供那么一点帮助,也希望自己的程序能够得到指点。

    程序中设计到分词技术和同义词表,分词采用了哈工大的pyltp,其官方文档链接为http://pyltp.readthedocs.io/zh_CN/latest/。同义词表是利用哈工大的同义词词林(扩展版)进行预处理保留每个词的前两项得来的,原版下载链接为https://www.ltp-cloud.com/download/

    我采用的同义词词表是下面这种结构:

    人 士
    人类 生人
    人手 人员
    劳力 劳动力
    匹夫 个人
    家伙 东西
    者 手
    每人 各人
    该人 此人
    人民 民
    

    下面是同义词替换程序(注释比较详细,这里不再赘述程序具体实现方式):

    from pyltp import Segmentor
    
    
    class SynonymsReplacer:
        def __init__(self, synonyms_file_path, cws_model_path):
            self.synonyms = self.load_synonyms(synonyms_file_path)
            self.segmentor = self.load_segmentor(cws_model_path)
    
        def __del__(self):
            """对象销毁时要释放pyltp分词模型"""
            self.segmentor.release()
    
        def load_segmentor(self, cws_model_path):
            """
            加载ltp分词模型
            :param cws_model_path: 分词模型路径
            :return: 分词器对象
            """
            segmentor = Segmentor()
            segmentor.load(cws_model_path)
            return segmentor
    
        def segment(self, sentence):
            """调用pyltp的分词方法将str类型的句子分词并以list形式返回"""
            return list(self.segmentor.segment(sentence))
    
        def load_synonyms(self, file_path):
            """
            加载同义词表
            :param file_path: 同义词表路径
            :return: 同义词列表[[xx,xx],[xx,xx]...]
            """
            synonyms = []
            with open(file_path, 'r', encoding='utf-8') as file:
                for line in file:
                    synonyms.append(line.strip().split(' '))
            return synonyms
    
        def permutation(self, data):
            """
            排列函数
            :param data: 需要进行排列的数据,列表形式
            :return:
            """
            assert len(data) >= 1, "Length of data must greater than 0."
            if len(data) == 1:  # 当data中只剩(有)一个词及其同义词的列表时,程序返回
                return data[0]
            else:
                head = data[0]
                tail = data[1:]  # 不断切分到只剩一个词的同义词列表
    
            tail = self.permutation(tail)
    
            permt = []
            for h in head:  # 构建两个词列表的同义词组合
                for t in tail:
                    if isinstance(t, str):  # 传入的整个data的最后一个元素是一个一维列表,其中每个元素为str
                        permt.extend([[h] + [t]])
                    elif isinstance(t, list):
                        permt.extend([[h] + t])
            return permt
    
        def get_syno_sents_list(self, input_sentence):
            """
            产生同义句,并返回同义句列表,返回的同义句列表没有包含该句本身
            :param input_sentence: 需要制造同义句的原始句子
            :return:
            """
            assert len(input_sentence) > 0, "Length of sentence must greater than 0."
            seged_sentence = self.segment(input_sentence)
    
            candidate_synonym_list = []  # 每个元素为句子中每个词及其同义词构成的列表
            for word in seged_sentence:
                word_synonyms = [word]  # 初始化一个词的同义词列表
                for syn in self.synonyms:  # 遍历同义词表,syn为其中的一条
                    if word in syn:  # 如果句子中的词在同义词表某一条目中,将该条目中它的同义词添加到该词的同义词列表中
                        syn.remove(word)
                        word_synonyms.extend(syn)
                candidate_synonym_list.append(word_synonyms)  # 添加一个词语的同义词列表
    
            perm_sent = self.permutation(candidate_synonym_list)  # 将候选同义词列表们排列组合产生同义句
    
            syno_sent_list = [seged_sentence]
            for p in perm_sent:
                if p != seged_sentence:
                    syno_sent_list.append(p)
            return syno_sent_list
    

    程序功能测试代码如下:

    if __name__ == '__main__':
        replacer = SynonymsReplacer(synonyms_file_path='/your/path', cws_model_path='/your/path')
        test_sentence = '承蒙关照今天早'
        _syn = replacer.get_syno_sents_list(test_sentence)
        for s in _syn:
            print(s)

    程序输出如下所示:

    ['承蒙', '关照', '今天', '早']
    ['承蒙', '关照', '今天', '早日']
    ['承蒙', '关照', '今天', '早安']
    ['承蒙', '关照', '今日', '早']
    ['承蒙', '关照', '今日', '早日']
    ['承蒙', '关照', '今日', '早安']
    ['承情', '关照', '今天', '早']
    ['承情', '关照', '今天', '早日']
    ['承情', '关照', '今天', '早安']
    ['承情', '关照', '今日', '早']
    ['承情', '关照', '今日', '早日']
    ['承情', '关照', '今日', '早安']

    输入是一个str类型的句子,输出是包含它本身的list形式的句子。欢迎各位朋友指教!

    展开全文
  • 中文同义句生成、enhance、augment、text、data、nlp、样本不均衡、语料不够、数据不足、扩充增加),相较于图片,中文文本数据强的效果似乎没那么靠谱(效果没那么好),也更加困难,但是捏,很多时候,使用...

    一.中文文本数据增强

          (中文、同义句生成、enhance、augment、text、data、nlp、样本不均衡、语料不够、数据不足、扩充增加),相较于图片,中文文本数据强的效果似乎没那么靠谱(效果没那么好),也更加困难,但是捏,很多时候,使用中文文本数据增强还是很有必要的,尤其是项目初期语料不够(估计只能手工构建),或者是样本严重不均衡的情况(比如说分类中一个类有200条数据,另外一个类有100万条数据)。

            这个时候,我们就需要使用中文文本数据增强了,通俗的说,也可理解成同义句生成。看见过paperweekly上的一篇论文介绍,说中文文本的语序不是那么重要,如果存在部分词语顺序错误、错别字,人类也能get这句话是什么意思,比如说“大漠帝国并不是一个历史上存在的国度,人类在实真的史历上没有录记,这是真的。”一眼看去,我们就能识别这句话什么意思,少部分语序错误我们也能够区分。

           又比如如果遮挡住,一句话的小半边或者是一半,我们依旧可以理解它们。

           所以,在分类、阅读理解、对话系统、检索......大多数领域,是可以容忍噪声的,我们引入同义句,也是有一定道理的。

    二.同义词方案

            记得有一篇分类augment论文《Easy data augmentation techniques for boosting performance on text classification tasks》,

                                            paper地址是:  https://arxiv.org/abs/1901.11196

                                            github实现是: https://github.com/jasonwei20/eda_nlp

            主要还是对英文语料进行词语操作,替换(用同义词替换文本中的部分词语,这个很容易想得到的)、删除(删除一个词语可以理解吧,这个也容易想到)、插入(即随机选择一个原句的词语的同义词插入,这个确实没想到,感觉比较赏心悦目)、交换(随机抽取词语交换顺序,这也很有意思)。

            EDA对不同模型的提升:

                                               

            EDA对分类准确率的提升:

                                               

            EDA四个方法的效果:

                     

            EDA的增强比率:

                        

             虽然看起来效果不明显,但也聊胜于无吧,尤其是分类训练语料少的时候,比如说几十条数据,想想都让人绝望呀。

    三、中文实现:

           相信这个算法很容易理解, 自己的中文版在初始版本的基础上加了一些过滤,同时调高了同义词替换、同义词插入的权重。

    github的实现在: https://github.com/yongzhuo/nlp_xiaojiang/blob/master/AugmentText/augment_eda/enhance_eda.py

    初始版本在: https://github.com/zhanlaoban/eda_nlp_for_Chinese

    四.  改进:

            1.  同义词获取的方案,除了那个Synonyms,你也可以用自己的,或者公开的词向量模型,获取最相似的。

     

    希望对你有所帮助!

     

    展开全文
  • 修改语法问题的 https://app.grammarly.com/ddocs/902815269 ...同义词 http://dict.cnki.net/ https://www.thesaurus.com/ https://www.english-corpora.org/coca/ https://www.medsci.cn/sci/query.do https://www
  • 中文数据少的情况下,可以尝试做数据增强,进行 同义词替换-新增-交换-删除-生成同义句,刚好用到,效果还可以,转载一篇使用博客 原文链接: https://blog.csdn.net/rensihui/article/details/89605517 github...
  • 通过深入分析当前针对中文的基于同义词替换的自然语言信息隐藏算法,发现由于存在大量不完全可替换的同义词词组,经过同义词替换后可能会破坏句子的语义一致性。针对这一缺点,提出了一种改进的基于同义词替换中文...
  • 同义词词库.txt

    2019-07-18 21:07:29
    同义词词库,对做NLP的用户很有帮助,可以对语句中的近义词进行处理。
  • 尝试编写简单的python脚本,该脚本将使用NLTK查找和替换txt文件中的同义词。以下代码给出错误:Traceback (most recent call last):File "C:\Users\Nedim\Documents\sinon2.py", line 21, in change(word)File "C:\...
  • 同义词词库

    2016-08-04 10:03:52
    20万同义词词库
  • 同义词词林》是梅家驹等人于1983年编纂而成,年代较为久远,对于目前的使用不太适合,哈工大实验室基于该词林进行扩展,完成了词林扩展版。 下载地址:https://www.ltp-cloud.com/download/ 二、使用说明 扩展...
  • 常用同义词词库可用于自然语言处理等领域,词列表中为每个词对应一个词,您可以通过相关逻辑把每个词的所有同义词全部提取出来
  • 同义词查询心路同行查询所有同义词查询近义词: 查问,盘问 [拼音] [chá xún] [释义] 查考询问所有近义词:一共,一切,一齐,全体,全数,全盘,全豹,全部,全面,完全,悉数,整个,统统,通盘,总共[拼音] [suǒ...
  •   尝试使用相似之间的关联性,来改变TF-IDF权重,依次改进普通TF-IDF文本分类算法的精确度,失败。 ·参考文献:   [1]但唐朋,许天成,张姝涵.基于改进TF-IDF特征的中文文本分类系统[J].计算机与数字工程,2020,...
  • 我们可以使用NLP技术,具体的词向量技术来训练模型,生成word2vec,然后来寻找...然后编写一下python程序,就可以查到display中作为参数的中文词汇的同义词了,比如我们要查找“良师益友”的同义词,可以这么写程序:
  • 同义词替换是简数采集的SEO工具之一,使用官方同义词库或自定义同义词库来替换指定字段(默认是title、content字段)中相匹配的内容,将匹配的词语替换成相应的同义词,对收录也有很大的帮助。 简数采集提供官方...
  • 目录hanlp分词插件插件安装在线安装离线安装安装数据包同义词配置 hanlp分词插件 HanLP是一款免费开源(Apache License 2.0协议)中文语义分词工具,它提供中文分词、词性标注、命名实体识别、依存句法分析、语义...
  • 搜索引擎中同义词的挖掘及使用

    千次阅读 2018-10-16 20:44:00
    通常搜索引擎中对同义词的处理,线下挖掘同义词词典,线上加载词典,但由于检索系统应用同义词时词典存在部分质量不好、或者本来质量好但是应用同义词更上下文有很强的关联性,并不一定适用,因此同义词主要包括两大...
  • 我们如何识别单词的同义词和反义词?引理将是同义词,然后您可以使用.antonyms来查找引理的反义词。因此,我们可以填充一些列表,如:import nltkfrom nltk.corpus import wordnetsynonyms = []antonyms = []for syn...
  • 最近要实现的一些功能需要让ES的同义词、扩展词、停止词能够热更新,达到让搜索更精确的目的。在网上看了很多相关的博客,现在热更新的方案已经实施成功,现在来总结一下。 ES版本:5.5.2 IK分词器版本:5.5.2 ...
  • 参考链接: 如何在Python中从NLTK WordNet获取同义词/反义词 文章目录 使用nltk中的wordnet语料库找出以下单词的同义词集、查看同义词集中的所有单词、查看同义词的具体定义及例子:dog, apple, fly查看以下单词对...
  • 最新SEO同义词词库.zip

    2021-04-08 13:40:05
    SEO百度优化伪原创常用汉字同义词近意词替换词库字典TXT文件下载
  •    1.... 在基于代码片段的分类过程中,由于程序员对数据变量名的选取可能具有一定的规范性,在某一特定业务处理逻辑代码中,可能多个变量名之间具有关联性或相似性(如“trade”(商品...“deal”等同义词),在某...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,145
精华内容 2,058
关键字:

中文同义词替换

友情链接: PWM.rar