精华内容
下载资源
问答
  • 中文同义句在线转换器是一款操作简便的热门同义词替换助手。可以帮助你将文章中的热门关键词进行替换达到伪原创的效果,对于写论文或者在网站发表文章很有帮助,欢迎有需要的朋友前来下载使用。 功能特色: 1.让你...
  • 中文数据少的情况下,可以尝试做数据增强,进行 同义词替换-新增-交换-删除-生成同义句,刚好用到,效果还可以,转载一篇使用博客 原文链接: https://blog.csdn.net/rensihui/article/details/89605517 github...

    在中文数据少的情况下,可以尝试做数据增强,进行 同义词替换-新增-交换-删除-生成同义句,刚好用到,效果还可以,转载一篇使用博客

    原文链接:

    https://blog.csdn.net/rensihui/article/details/89605517

    github代码:

    https://github.com/yongzhuo/nlp_xiaojiang/blob/master/AugmentText/augment_eda/enhance_eda.py

    展开全文
  • 中文同义句生成、enhance、augment、text、data、nlp、样本不均衡、语料不够、数据不足、扩充增加),相较于图片,中文文本数据强的效果似乎没那么靠谱(效果没那么好),也更加困难,但是捏,很多时候,使用...

    一.中文文本数据增强

          (中文、同义句生成、enhance、augment、text、data、nlp、样本不均衡、语料不够、数据不足、扩充增加),相较于图片,中文文本数据强的效果似乎没那么靠谱(效果没那么好),也更加困难,但是捏,很多时候,使用中文文本数据增强还是很有必要的,尤其是项目初期语料不够(估计只能手工构建),或者是样本严重不均衡的情况(比如说分类中一个类有200条数据,另外一个类有100万条数据)。

            这个时候,我们就需要使用中文文本数据增强了,通俗的说,也可理解成同义句生成。看见过paperweekly上的一篇论文介绍,说中文文本的语序不是那么重要,如果存在部分词语顺序错误、错别字,人类也能get这句话是什么意思,比如说“大漠帝国并不是一个历史上存在的国度,人类在实真的史历上没有录记,这是真的。”一眼看去,我们就能识别这句话什么意思,少部分语序错误我们也能够区分。

           又比如如果遮挡住,一句话的小半边或者是一半,我们依旧可以理解它们。

           所以,在分类、阅读理解、对话系统、检索......大多数领域,是可以容忍噪声的,我们引入同义句,也是有一定道理的。

    二.同义词方案

            记得有一篇分类augment论文《Easy data augmentation techniques for boosting performance on text classification tasks》,

                                            paper地址是:  https://arxiv.org/abs/1901.11196

                                            github实现是: https://github.com/jasonwei20/eda_nlp

            主要还是对英文语料进行词语操作,替换(用同义词替换文本中的部分词语,这个很容易想得到的)、删除(删除一个词语可以理解吧,这个也容易想到)、插入(即随机选择一个原句的词语的同义词插入,这个确实没想到,感觉比较赏心悦目)、交换(随机抽取词语交换顺序,这也很有意思)。

            EDA对不同模型的提升:

                                               

            EDA对分类准确率的提升:

                                               

            EDA四个方法的效果:

                     

            EDA的增强比率:

                        

             虽然看起来效果不明显,但也聊胜于无吧,尤其是分类训练语料少的时候,比如说几十条数据,想想都让人绝望呀。

    三、中文实现:

           相信这个算法很容易理解, 自己的中文版在初始版本的基础上加了一些过滤,同时调高了同义词替换、同义词插入的权重。

    github的实现在: https://github.com/yongzhuo/nlp_xiaojiang/blob/master/AugmentText/augment_eda/enhance_eda.py

    初始版本在: https://github.com/zhanlaoban/eda_nlp_for_Chinese

    四.  改进:

            1.  同义词获取的方案,除了那个Synonyms,你也可以用自己的,或者公开的词向量模型,获取最相似的。

     

    希望对你有所帮助!

     

    展开全文
  • 对于学生党来说,每天写原创文章是比较枯燥的,但网站不更新文章,排名又得不到保障,因此一些学生党将目光...同义词替换一般常见的中文同义句转换的软件是同义词替换,比如将今天替换成今日,将学生替换成搜索引擎优化

    对于学生党来说,每天写原创文章是比较枯燥的,但网站不更新文章,排名又得不到保障,因此一些学生党将目光锁定在中文同义句转换的软件上,其实中文同义句转换的软件早已有之,并不稀奇,尤其是最近一些年科技进步ai也参与了中文同义句转换大军。这里发现一个叫小狗AI仿写的,转换的特别好,截图给大家看看:

    中文同义句转换的软件

    那么,中文同义句转换的软件,是否对学生有效?

    我们要知道中文同义句转换的软件是否有效,我们就需要先了解其工作的原理:

    同义词替换一般常见的中文同义句转换的软件是同义词替换,比如将今天替换成今日,将学生替换成搜索引擎优化等等,其实这种中文同义句转换的软件已经过时,搜索引擎可以轻松的判断出同义词之间的差别,搜索引擎通过索引页面将页面转变成一组哈希值,将经过同义词替换的内容也转变成一组哈希值进行对比,而经过哈希值的转换,同义词可以有效的规避,只保留原文指纹,因此这样的中文同义句转换的软件是无效的,就不要使用了。

    ai创作而真正的ai创作也是有的,比如百度ai,但只限于创作一些固定格式的内容,比如股票信息、天气信息等等,并不能大面积利用。

    但中文同义句转换的软件对学生也不是没有效果,不同的需求,起到的作用也不同:

    当一个权重比较高的网站,需要保持排名或要进一步提高排名,需要有大量内容时,可以借助互译方式的中文同义句转换的软件来实现批量创作文章。

    如果你的内容是采集的并且不希望有侵权的风险,你可以随便选择一种中文同义句转换的软件进行中文同义句转换,来规避版权问题。

    总结:中文同义句转换的软件,是否对学生有效的问题,我们就讨论到这里,以上内容,仅供参考。

    展开全文
  • ElasticSearch同义词替换 1.安装插件ik中文分词器 原因: 如果不安装ik中文分词器,那么在进行同义词匹配分词中,它不知道该怎么断词,会将一句话中的每次词单独的分出来,不会以我们常用的组词规则进行划分。 ...

    ElasticSearch同义词操作步骤

    环境:
    elasticsearch 6.4.3(已提前安装好)
    kibana 6.4.3(已提前安装好)
    ik分词器 6.4.3
    注:三者版本要保持一致

    1.安装插件ik中文分词器

    原因:
       如果不安装ik中文分词器,那么在进行同义词匹配分词中,它不知道该怎么断词,会将一句话中的每个中文词单独的分出来,不会以我们常用的组词规则进行划分。
    安装分词器后会根据中文习惯划分词组。
    

    安装方法:
    使用elasticsearch-plugin进行安装(从v5.5.1版本支持)

    ./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.4.3/elasticsearch-analysis-ik-6.4.3.zip
    

    注意:替换6.4.3为自己的elasticsearch版本

    2.实验数据准备

    在elasticsearch文件夹下的config中新建文件夹analysis,再在analysis文件夹下创建同义词替换数据文本文件synonyms.txt。
    txt中的内容为(同义词内容根据自己的想法定义):

    西红柿,番茄 =>西红柿,番茄
    社保,公积金 =>社保,公积金
    
    british, english
    queen, monarch
    

    具体同义词定义和格式见官方要求Elasticsearch同义词和分析链

    3.创建分词索引

    kibana中创建的方法:

    PUT /syno
    {
      "settings": {
        "analysis": {
          "filter": {
            "my_synonym_filter": {
              "type": "synonym", 
              "synonyms_path" : "analysis/synonyms.txt"
            }
          },
          "analyzer": {
            "my_synonyms": {
              "tokenizer": "ik_smart",
              "filter": [
                "lowercase",
                "my_synonym_filter" 
              ]
            }
          }
        }
      }
    }
    

    "synonyms_path"为自己在elasticsearch中的config文件下所建的相关同义词替换定义的文本文件路径。

    4.实验结果测试

    kibana中测试内容输入:

    GET /syno/_analyze
    {
      "text":"你的社保要给多少钱?",
      "analyzer": "my_synonyms"
    }
    

    实验结果显示:

    {
      "tokens": [
        {
          "token": "你",
          "start_offset": 0,
          "end_offset": 1,
          "type": "CN_CHAR",
          "position": 0
        },
        {
          "token": "的",
          "start_offset": 1,
          "end_offset": 2,
          "type": "CN_CHAR",
          "position": 1
        },
        {
          "token": "社保",
          "start_offset": 2,
          "end_offset": 4,
          "type": "SYNONYM",
          "position": 2
        },
        {
          "token": "公积金",
          "start_offset": 2,
          "end_offset": 4,
          "type": "SYNONYM",
          "position": 2
        },
        {
          "token": "要给",
          "start_offset": 4,
          "end_offset": 6,
          "type": "CN_WORD",
          "position": 3
        },
        {
          "token": "多少钱",
          "start_offset": 6,
          "end_offset": 9,
          "type": "CN_WORD",
          "position": 4
        }
      ]
    }
    
    展开全文
  • 一、Synonym Sentence Converter中文同义词句子在线转换器(Synonym Sentence Converter)是一种易于操作的流行同义词替换助手。Definition of CONVERTED​www.merriam-webster.com二、小发猫伪原创文章生成器伪原创...
  • 这是一个插件,用户可以在可视模式下的光标或短语下查找任何单词的同义词,并将其替换为用户选择的同义词。 它还接受来自人工输入的单词/短语以进行同义词检查。 注意:目前,此插件仅支持英语(en),中文(cn)...
  • 机器学习习题(18)

    千次阅读 2018-11-06 11:02:29
    1、中文同义词替换时,常用到Word2Vec,以下说法错误的是 A. Word2Vec基于概率统计 B. Word2Vec结果符合当前语料环境 C. Word2Vec得到的都是语义上的同义词 D. Word2Vec受限于训练语料的数量和质量 参考答案:C...
  • 中文文本分析(1)--分词

    千次阅读 2019-06-25 11:45:20
    中文文本分析(1)--分词1、 安装包2、数据预处理2.1 数据清洗2.2 分词2.3 去除停用词2.4 同义词替换 1、 安装包 import jieba import re 2、数据预处理 数据格式: [“晚上想吃五花肉土豆盖浇饭”, “今晚吃鸡嘿咻...
  • - EDA(同义词替换、插入、交换和删除)(效果还行) - HMM-marko(质量较差) - syntax(依存句法、句法、语法书)(简单句还可) - seq2seq(深度学习同义句生成,效果不理想,seq2seq代码大都是 ...
  • 同义词如何配置 如何确保搜索关键词被正确分词 分析器分词流程 分析器扮演着非常重要的角色,ES提供的有内置的分析器,社区也提供各种分析器插件(如中文的ik分析器)。分析器由以下几个组件构成 字符过滤器 主要...
  • 隐写

    2020-07-31 18:00:37
    当前很多隐写方法是基于文本及其语言的隐写术,如基于同义词替换的文本隐写术,an efficient linguistic steganography for chinese text一文章就描述采用中文同义词替换算法。其他的文本的隐
  • (v3.2, v3.3)支持免费PHP空间的有限存储空间、和修订了一个同义词替换变换的bug。(v3.1)内置大量RSS资源、和适应多种不同服务器配置。(v3.0)支持Mysql服务器和Web服务器不是同一台服务器的配置情况。(v2.6)...
  • 用随机选择的其中一个同义词替换这些单词中的每个单词。 随机插入(RI):在句子中找到不是停用词的随机词的随机同义词。 将该同义词插入句子中的随机位置。 这样做n次。 随机交换(RS):在句子中随机选择两个...
  • python 文本生成实现

    2019-08-24 22:05:58
    主要涉及到同义词替换+rnn神经网罗进行句子通顺性判别: 代码地址: https://gitee.com/zhoubingbing/text_generation/tree/master 代码 第一部分: 进行中文预料文集进行分词得到如下文本(空格或者\t分隔)...
  • 英语考试资料

    2013-08-27 17:05:06
    选项中照抄或者似乎抄原文的一般不是答案,而同义词替换的是正确答案。 ... 描述一个假设的事件,书信(只考过一次,这个基本不用准备) 4.08英语考试存在2种可... 新CET-6阅读电子讲义 六级强调考察的是速度,...
  • 一、首先描述一个场景:比如机器人问答时候、如果自定义问答或者添加知识库类似的功能,如下举例: Q:JAVA开发需要哪些技术?—— 这个是问题. ...EDA(同义词替换、插入、交换和删除)(效果还...
  • 淘客帝国v5.20破解版稳定官方原版

    热门讨论 2012-01-19 10:41:21
    内容同义词替换: (商品详细页内容同义词替换,加强内容原创性) 超级淘宝嵌入:可以直接截取淘宝推广页面嵌入网站,增加吸引效果。 基本参数配置:配置App,PID,站长联系信息,beian信息,统计代码,更改管理员...
  • 其实对于程序猿来说,伪原创就是“对文章进行大量的同义词替换”。 做SEO的朋友——尤其是黑帽SEO的朋友——一定知道,伪原创对于搜索引擎优化至关重要。英文的伪原创称为“Spin”,成熟的英文伪原创工具有TBS、...
  • 但是在英文里:probability和likelihood,在做阅读理解的时候,你可以认为他们是相同的单词,从而进行同义词替换。 但在数学的世界里,以这两个词为核心诞生的两个概念:概率函数和似然函数,却有着天差地别。 假如...
  • Word2000使用技巧进阶

    2006-09-17 10:19:00
    1.使用英汉/汉英双向词典...使用同义词库(查找英文同义词)选定要查看同义词的单词或短语(将插入点移至该单词中也可以),然后,依次点击-->工具-->语言-->同义词库(快捷键:Shift+F7)-->替换。3.中文
  • 深度学习视觉领域的增强方法可以很大程度上提高模型的表现,并减少数据的依赖,而NLP上做数据增强不像在图像上那么方便,但还是有...基于词典的替换在这种技术中,我们从句子中随机取出一个单词,并使用同义词词典将其
  • 涉及到各种与nlp相关的算法,基于keras和tensorflow 、Python文本挖掘/NLP实战示例、 Blackstone:面向非结构化法律文本的spaCy pipeline和NLP模型通过同义词替换实现文本“变脸” 、中文 预训练 ELECTREA 模型: ...
  •  支持免费PHP空间的有限存储空间、和修订了一个同义词替换变换的bug。(v3.1)  内置大量RSS资源、和适应多种不同服务器配置。(v3.0)  支持Mysql服务器和Web服务器不是同一台服务器的配置情况。(v2.6)。  新增...
  • - EDA(同义词替换、插入、交换和删除)(效果还行) - HMM-marko(质量较差) - syntax(依存句法、句法、语法书)(简单句还可) - seq2seq(深度学习同义句生成,效果不理想,seq2seq代码大都是 ...
  • 石青伪原创工具

    2019-03-05 14:04:04
    4、独有的同义词和反义词引擎,可以适当改变文章语义,特有算法进行控制. 5、独有段落和段内迁移功能; 6、伪原创内容支持导入导出为txt或html等格式,方便客户迁移数据; 7、独家支持在线自能伪原创动易、新云、老...
  • A和B是同义词,A和C是同义词,B和D是同义词,C和E是同义词 则: 对于A来说,A B C是直接同义词 对于B来说,A B D是直接同义词 对于C来说,A C E是直接同义词 对于A B C来说,A B C D E是间接同义词 14、反义标注 ...
  • oracle数据库经典题目

    2011-02-17 15:05:20
    C.Oracle中的同义词分为公有同义词和私有同义词 D.公有同义词在数据库中所有的用户都可以使用;私有同义词由创建它的用户所拥有 25. 下列哪个锁模式不属于Oracle?( D ) A. 共享锁 B.排他锁 C. 行级共享锁 D. ...
  • PowerPoint.2007宝典 8/10

    2012-04-01 18:39:23
    8.7.2 利用同义词库查找同义词和反义词 165 8.7.3 将文字翻译成其他语言 165 8.7.4 使用信息检索网站 166 8.7.5 使用商业和金融网站 166 8.8 小结 167 第9章 创建和格式化表格 168 9.1 创建新表格 168...
  •  dictionary 全部数据字典表的名称和解释,它有一个同义词dict dict_column 全部数据字典表里字段名称和解释 如果我们想查询跟索引有关的数据字典时,可以用下面这条SQL语句: SQL>select * from dictionary ...

空空如也

空空如也

1 2
收藏数 31
精华内容 12
关键字:

中文同义词替换