精华内容
下载资源
问答
  • 中文分词器 IK分词器
    2022-03-24 21:32:09

    Ik分词器安装使用

    中文分词器

    standard 分词器,仅适用于英文。

    GET /_analyze
    {
      "analyzer": "standard",
      "text": "中华人民共和国人民大会堂"
    }
    

    我们想要的效果是什么:中华人民共和国,人民大会堂

    IK分词器就是目前最流行的es中文分词器

    安装

    官网:https://github.com/medcl/elasticsearch-analysis-ik

    下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases

    根据es版本下载相应版本包。

    解压到 es/plugins/ik中。

    重启es

    ik分词器基础知识

    ik_max_word: 会将文本做最细粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民大会堂,人民大会,大会堂”,会穷尽各种可能的组合;

    ik_smart: 会做最粗粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国,人民大会堂”。

    ik分词器的使用

    存储时,使用ik_max_word,搜索时,使用ik_smart

    PUT /my_index 
    {
      "mappings": {
          "properties": {
            "text": {
              "type": "text",
              "analyzer": "ik_max_word",
              "search_analyzer": "ik_smart"
            }
          }
      }
    }
    

    搜索

    GET /my_index/_search?q=中华人民共和国人民大会堂
    

    ik配置文件

    ik配置文件

    ik配置文件地址:es/plugins/ik/config目录

    IKAnalyzer.cfg.xml:用来配置自定义词库

    main.dic:ik原生内置的中文词库,总共有27万多条,只要是这些单词,都会被分在一起

    preposition.dic: 介词

    quantifier.dic:放了一些单位相关的词,量词

    suffix.dic:放了一些后缀

    surname.dic:中国的姓氏

    stopword.dic:英文停用词

    ik原生最重要的两个配置文件

    main.dic:包含了原生的中文词语,会按照这个里面的词语去分词

    stopword.dic:包含了英文的停用词

    停用词,stopword

    a the and at but

    一般,像停用词,会在分词的时候,直接被干掉,不会建立在倒排索引中

    自定义词库

    (1)自己建立词库:每年都会涌现一些特殊的流行词,网红,蓝瘦香菇,喊麦,鬼畜,一般不会在ik的原生词典里

    自己补充自己的最新的词语,到ik的词库里面

    IKAnalyzer.cfg.xml:ext_dict,创建mydict.dic。

    补充自己的词语,然后需要重启es,才能生效

    (2)自己建立停用词库:比如了,的,啥,么,我们可能并不想去建立索引,让人家搜索

    custom/ext_stopword.dic,已经有了常用的中文停用词,可以补充自己的停用词,然后重启es

    使用mysql热更新 词库

    热更新

    每次都是在es的扩展词典中,手动添加新词语,很坑

    (1)每次添加完,都要重启es才能生效,非常麻烦

    (2)es是分布式的,可能有数百个节点,你不能每次都一个一个节点上面去修改

    es不停机,直接我们在外部某个地方添加新的词语,es中立即热加载到这些新词语

    热更新的方案

    (1)基于ik分词器原生支持的热更新方案,部署一个web服务器,提供一个http接口,通过modified和tag两个http响应头,来提供词语的热更新

    (2)修改ik分词器源码,然后手动支持从mysql中每隔一定时间,自动加载新的词库

    更多相关内容
  • 因为es本身的分词器中文不是特别友好,所以使用ik分词器,分为 两种 模式,一种是粗 模式,一种是细模式,还希望能帮助到刚刚接触的人
  • es中文分词器ik

    2018-04-14 18:23:59
    es中文分词器ikes中文分词器ikes中文分词器ikes中文分词器ikes中文分词器ik
  • IK中文分词器在Elasticsearch上的使用。原生IK中文分词是从文件系统中读取词典,es-ik本身可扩展成从不同的源读取词典。目前提供从sqlite3数据库中读取。es-ik-plugin-sqlite3使用方法: 1. 在elasticsearch.yml中...
  • 中文分词器 IK

    2021-04-23 16:09:44
    1、中文分词器IK插件介绍 2、Linux环境安装中文分词器IK插件 3、自定义扩展分词器文件 4、elasticsearch文档映射概述 1、中文分词器IK插件介绍 1.1 分词器简介 在对文档(Document)中的内容进行索引前, 需要对文档...

    本章内容概述

    1、中文分词器IK插件介绍
    2、Linux环境安装中文分词器IK插件
    3、自定义扩展分词器文件
    4、elasticsearch文档映射概述
    

    1、中文分词器IK插件介绍

    1.1 分词器简介

    	在对文档(Document)中的内容进行索引前, 需要对文档的内容使用分析对象(分词器)进行分词.
    	分词器:从一串文本中切分出来一个个的词条,并对每个词条进行标准化。
    		
    		包含三部分: 
    		
    			character filter: 分词之前的预处理,过滤掉HTML标签,特殊符号转换等;
    			
    			tokenizer: 分词
    			
    			token filter: 标准化,比如大小写转换,同义词转换等
    	
    	分词的目的是为了索引, 索引的目的是为了搜索.
    	
    		分词的过程是 先分词, 再过滤:
    
    		分词: 将Document中Field域的值切分成一个一个的单词. 具体的切分方法(算法)由具体使用的分词器内部实现.
    
    		过滤: 去除标点符号,去除停用词(的、是、is、the、a等), 词的大写转为小写.
    	
    	分词流程图:
    

    在这里插入图片描述

    	停用词说明:
    	停用词是指为了节省存储空间和提高搜索效率, 搜索引擎在索引内容或处理搜索请求时会自动忽略的字词, 这些字或词被称为"stop
    words". 如语气助词、副词、介词、连接词等, 通常自身没有明确的含义,只有放在一个上下文语句中才有意义(如:的、在、啊, is、a等).
    
    	例如:
    	​	原始文档内容: Lucene is a Java full-text search engine
    	​	分析以后的词: lucene java full text search engine
    

    1.2 ES分词器介绍

    	因为Elasticsearch中默认的标准分词器分词器对中文分词不是很友好,会将中文词语拆分成一个一个中文的汉子。因此引入中文分词器
    -es-ik插件。
    
    	es内置种分词器,他们分别是、standard analyzer、simple analyzer、whitespace analyzer、language analyzer。所以如果
    是中文还要程序员自动手动安装中文分词器。
    
    	假设有如下一段话:
    
    		Set the shape to semi-transparent by calling set_trans(5)
    	
    	standard analyzer:(默认的)他会将词汇单元转换为小写形式,并去除停用词标点符号,支持中文采用的方法是单字切分。
    	
    		结果是 set, the, shape, to, semi, transparent, by, calling, set_trans, 5(默认的是standard)
    	
    	simple analyzer:首先会通过非字母字符来分割文本信息,然后将词汇单元统一为小写形式,该分析器会出掉数字类型的字符。
    	
    		结果是 set, the, shape, to, semi, transparent, by, calling, set, trans
    
    	whitespace analyzer:仅仅是去除空格,对字符没有lowcase化,不支持中文;并且不对生成的词汇单元进行任何标准化处理。
    	
    		结果是 Set, the, shape, to, semi-transparent, by, calling, set_trans(5)
    
    	language analyzer:特定的语言的分词器,不支持中文
    

    1.3 演示ES传统分词器

    	通过Postman访问如下地址:http://192.168.34.64:9200/_analyze
    

    在这里插入图片描述

    	分词结果:
    
    {
        "tokens": [
            {
                "token": "奥",
                "start_offset": 0,
                "end_offset": 1,
                "type": "<IDEOGRAPHIC>",
                "position": 0
            },
            {
                "token": "迪",
                "start_offset": 1,
                "end_offset": 2,
                "type": "<IDEOGRAPHIC>",
                "position": 1
            },
            {
                "token": "a4l",
                "start_offset": 2,
                "end_offset": 5,
                "type": "<ALPHANUM>",
                "position": 2
            }
        ]
    }
    

    1.4 IK分词器介绍

    	IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。
    	
    	从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目Lucene为应用主体的,结合词典分词和文法
    分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为 面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认
    优化实现。
    
    	采用了特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力。
    	
    	采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中
    文词汇(姓名、地名处理)等分词处理。
    
    	对中英联合支持不是很好,在这方面的处理比较麻烦.需再做一次查询,同时是支持个人词条的优化的词典存储,更小的内存占用。
    	
    	支持用户词典扩展定义。
    	
    	针对Lucene全文检索优化的查询分析器IKQueryParser;采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene检索
    的命中率。
    

    2、Linux环境安装中文分词器IK插件

    2.1 下载及安装

    	下载地址: https://github.com/medcl/elasticsearch-analysis-ik/releases
    
    	注意: es-ik分词插件版本一定要和es安装的版本对应
    

    在这里插入图片描述

    	第一步:下载es的IK插件[比如:elasticsearch-analysis-ik-6.4.3.zip]命名改为ik,然后解压
    	
    	第二步: 上传到/usr/local/elasticsearch-6.4.3/plugins
    

    在这里插入图片描述

    	第三步: 重启elasticsearch即可
    

    2.2 演示IK分词器

    在这里插入图片描述

    	分词结果:
    
    {
        "tokens": [
            {
                "token": "奥迪",
                "start_offset": 0,
                "end_offset": 2,
                "type": "CN_WORD",
                "position": 0
            },
            {
                "token": "a4l",
                "start_offset": 2,
                "end_offset": 5,
                "type": "LETTER",
                "position": 1
            }
        ]
    }
    
    	注:IK分词器默认有一些热词,但是不包含所有,我们可以自定义分词器文件
    

    在这里插入图片描述

    3、自定义扩展分词器文件

    	1、在/usr/local/elasticsearch-6.4.3/plugins/ik/config目录下创建custom文件夹
    		
    		mkdir custom
    	
    	2、进入custom目录,然后创建new_word.dic文件
    	
    		touch new_word.dic
    	
    	3、编辑new_word.dic文件,然后加入新的热词
    	
    		vim new_word.dic
    		
    		盘它
    		硬核
    		老表
    		王者荣耀
    		洪荒之力
    		马云
    		一带一路
    	
    	4、配置文件引入新的自定义热词文件
    	
    		vi IKAnalyzer.cfg.xml
    

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Uuur9CuJ-1619165360388)(images/77_引入自定义热词.png)]

    	5、重启elasticsearch
    	
    		先杀进程,再重启
    

    4、elasticsearch文档映射概述

    	已经把ElasticSearch的核心概念和关系数据库做了一个对比,索引(index)相当于数据库,类型(type)相当于数据表,映射
    (Mapping)相当于数据表的表结构。ElasticSearch中的映射(Mapping)用来定义一个文档,可以定义所包含的字段以及字段的类型、分
    词器及属性等等。
    
    	文档映射就是给文档中的字段指定字段类型、分词器。
    	
    	使用Kibana 运行GET /newcapecedu/user/_mapping
    	
    	运行结果:
    
    {
      "newcapecedu": {
        "mappings": {
          "user": {
            "properties": {
              "age": {
                "type": "long"
              },
              "car": {
                "type": "text",
                "fields": {
                  "keyword": {
                    "type": "keyword",
                    "ignore_above": 256
                  }
                }
              },
              "name": {
                "type": "text",
                "fields": {
                  "keyword": {
                    "type": "keyword",
                    "ignore_above": 256
                  }
                }
              },
              "sex": {
                "type": "long"
              }
            }
          }
        }
      }
    }
    
    	由此得出结论,ElasticSearch的默认数据类型:数值类型都是long,字符串类型都是text
    

    4.1 文档映射分类

    动态映射:
    	我们知道,在关系数据库中,需要事先创建数据库,然后在该数据库实例下创建数据表,然后才能在该数据表中插入数据。而
    ElasticSearch中不需要事先定义映射(Mapping),文档写入ElasticSearch时,会根据文档字段自动识别类型,这种机制称之为动态映
    射。
    
    静态映射:
    	在ElasticSearch中也可以事先定义好映射,包含文档的各个字段及其类型等,这种方式称之为静态映射。
    
    展开全文
  • https://github.com/medcl/elasticsearch-analysis-ik elasticsearch 中文分词器
  • 亲测可用的中文分词器,也可以到IK Analyzer官网下载,网址如下: https://code.google.com/archive/p/ik-analyzer/downloads 在solrcode的schema.xml文件中的配置如下: 配置中文分词器的fieldType: ...
  • 中文分词器IK Analyzer 2012优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的,在 2012 版本, 词典支持中文,英文,数字混合词语。
  • solr4.10使用的中文分词器,包括IKAnalyzer2012FF_u1.jar,IKAnalyzer.cfg.xml,stopword.dic,及Cloudera平台下安装solr分词器教程
  • 内容包括:doc、IKAnalyzer.cfg.xml、IKAnalyzer2012FF_u1.jar、IKAnalyzer中文分词器V2012_FF使用手册.pdf、LICENSE.txt、NOTICE.txt、stopword.dic
  • 一、ik中文分词器 上篇文章我们学习了ES集群分片和水平扩容,前面再使用的时候应该就会发现,在做match 匹配时,默认会进行分词,但当查询内容是中文时,分词效果是一个字被认定了一个词,这显然不符合我们对中文...

    一、ik中文分词器

    上篇文章我们学习了ES集群分片和水平扩容,前面再使用的时候应该就会发现,在做match 匹配时,默认会进行分词,但当查询内容是中文时,分词效果是一个字被认定了一个词,这显然不符合我们对中文分词的效果,因此本篇我们讲解下ES中中文分词器ik 的使用。

    上篇文章地址:https://blog.csdn.net/qq_43692950/article/details/122246286

    ik是基于java开发的轻量级的中文分词工具包。它是以开源项目Luence为主体的,结合词典分词和文法分析算法的中文分词组件,下面是ik的Github地址:

    https://github.com/medcl/elasticsearch-analysis-ik

    官方提供的 ik 和 ES的对应版本关系:
    在这里插入图片描述
    ik 的分词粒度:

    • ik_max_word:会将文本做最细粒度(拆到不能再拆)的拆分,例如「中华人民共和国国歌」会被拆分为「中华人民共和国、中华人民、中华、华人、人民共和国、人民、人、民、共和国、共和、和、国国、国歌」,会穷尽各种可能的组合
    • ik_smart:会将文本做最粗粒度(能一次拆分就不两次拆分)的拆分,例如「中华人民共和国国歌」会被拆分为「中华人民共和国、国歌」

    二、ES安装ik

    首先需要ik包,下载地址:

    https://github.com/medcl/elasticsearch-analysis-ik/releases

    我们选用的是ES 7.140 版本的,所以这里要下载 7.14.0 的 ik:
    在这里插入图片描述
    在这里插入图片描述
    下载完成后,新建ik目录,并将解压后的文件放在ik目录下:
    在这里插入图片描述
    下面将ik 目录复制到es安装目录的 plugins 目录下:
    在这里插入图片描述
    重新启动 es:
    在这里插入图片描述
    可以看到已经自动加载ik的配制。

    三、测试中文分词

    ik_max_word 细粒度分词

    使用PostMan 向ES服务器 发送Get请求:

    http://localhost:9200/_analyze
    

    请求体内容:

    {
      "text": "人民共和国",
      "analyzer":"ik_max_word"
    }
    

    在这里插入图片描述
    在这里插入图片描述

    已经不是以前的一个中文就是一个词了,下面再测试下 ik_smart 的效果:

    ik_smart 粗粒度分词

    在这里插入图片描述
    现在就已经成功使用了,ik中文分词器。

    四、ik 扩展词汇

    上面已经使用了ik分词器,已经有了分词效果,但是再对一些名词进行分词时,会怎么样的,如果测试下:德玛西亚 这个词,我们希望作为一个整体分词,下面看下结果:
    在这里插入图片描述

    可以看到将德玛西亚 这个词给分开了,这是由于Ik自带的分词库中并没有这个名词,所以就不知道怎么分了,此时,我们就可以进行扩展词汇:

    首先进入es安装目录,进入plugins\ik\config 目录下,创建 custom.dic 文件,内容我们写入:德玛西亚

    在这里插入图片描述

    在这里插入图片描述

    下面修改plugins\ik\config\IKAnalyzer.cfg.xml文件:
    在这里插入图片描述
    下面重启es,
    在这里插入图片描述
    可以看到已经加载我们自定义的词汇。

    下面再来做上面的请求:
    在这里插入图片描述
    已经分词出了德玛西亚这个词语。

    五、远程动态词库

    上面已经实现对词库的扩展,但是会发现一个弊端,就是一旦扩展后就需要重启es使扩展词汇生效,如果使生产环境怎么能随便对es进行重启呢,对此es提供了远程词汇的方式,我们对远程词汇文件进行修改,es每次都以http请求的方式获取分词,但要符合两个条件:

    • 该 http 请求需要返回两个头部(header),一个是 Last-Modified,一个是 ETag,这两者都是字符串类型,只要有一个发生变化,该插件就会去抓取新的分词进而更新词库。
    • 该 http 请求返回的内容格式是一行一个分词,换行符用 \n 即可。

    满足上面两点要求就可以实现热更新分词了,不需要重启 ES 实例。

    对此,官方也给出了方案,就是将分词文件放在nginx中,当文件被修改nginx自动返回相应的 Last-Modified 和 ETag:
    在这里插入图片描述
    下面我们根据官方的方案进行实现下,首先新建一个 ik_dict.txt ,写入以下内容:

    德玛西亚
    弗雷尔卓德
    小毕超
    

    然后将该文件放在nginx的静态资源目录下:
    在这里插入图片描述
    然后启动nginx,访问http://192.168.40.167:8080/ik_dict.txt,注意修改为自己的ip:
    在这里插入图片描述
    然后修改es安装目录下 /plugins/ik/config/IKAnalyzer.cfg.xml文件:
    在这里插入图片描述
    然后重启es,测试效果:
    在这里插入图片描述
    由于我们在远程库中配制了小毕超所以这里可以分析出来。

    下面测试下没有配制的词语,比如果粒橙这个词语:
    在这里插入图片描述
    现在是一个字算了一个词语,下面我们修改ik_dict.txt文件:
    在这里插入图片描述
    再来请求下:
    在这里插入图片描述
    此时就实现了,无需重启es,热更新词库的效果了。

    六、扩展 - 更新历史索引

    上面已经实现了动态词库的效果,上面使用的都是直接使用分词器进行测试的,在实际使用中不可能这样做的,都是去查询数据的,所以这里就会出现一个问题。

    在我们自定义拓展词库更改后,在原先的索引文档中,由于不是新插入的数据,所以其倒排索引列表还是原先的分词列表数据,导致就算拓展了词库,新增的分词也没有生效。在不重新导入数据的前提下,处理办法如下:

    通过_update_by_query去更新匹配的文档,如果没有指定查询,那么就会在每个文档上执行更新:

    向es服务器发送POST请求:

     http://127.0.0.1:9200/user/_update_by_query?conflicts=proceed
    

    其中user为索引名称,conflicts表示如果更新过程中发生异常冲突时如何处理,有两种方案:

    • abort:中止(默认)
    • proceed:继续执行

    注意更新索引,会影响线上的es的 qps,尽量选择夜深人静的时候进行更新。

    在这里插入图片描述
    喜欢的小伙伴可以关注我的个人微信公众号,获取更多学习资料!

    展开全文
  • IK中文分词器

    2019-05-06 19:31:03
    IKAnalyaer中文分词器,配合slor使用,让你的搜索效果更佳
  • 第三方的中文分词器有很多,这里采用IK-analyzer GoogleCode 开源项目 :http://code.google.com/p/ik-analyzer/,开发包下载地址:https://code.google.com/archive/p/ik-analyzer/downloads------需要翻墙 阿里云...

    Lucene是apache的项目,本身不支持中文分词,所以咱们需要中文分词器

    第三方的中文分词器有很多,这里采用IK-analyzer

    GoogleCode 开源项目 :http://code.google.com/p/ik-analyzer/,开发包下载地址:https://code.google.com/archive/p/ik-analyzer/downloads------需要翻墙
    阿里云 > 教程中心 > java教程 > IK Analyzer 中文分词器:https://www.aliyun.com/jiaocheng/337819.html
    

    Pom:

    <dependency>
        <groupId>com.janeluo</groupId>
        <artifactId>ikanalyzer</artifactId>
        <version>2012_u6</version>
    </dependency>
    

    如果你用的是高版本Lucene,那么上面的pom对你无用,可以看一下004.1文档,但我失败了,我只好下一个低版本的Lucene,所以这里降级为4.10.3

    http://archive.apache.org/dist/lucene/java/4.10.3/	#下载地址

    IK(IK-analyzer,后续都简称IK)有三个配置文件:

    IKAnalyzer.cfg.xml	#指定哪个文件是扩展字典、哪个是扩展停止词典
    ext.dic		#扩展词典,可以添加新词汇
    stopword.dic		#扩展停止词典,过滤掉那些词汇
    

    其中扩展词典和扩展停止词典都是一行写一个词的,第二个词需要换行再写。

    IK的分词案例(本案例编写了扩展词典和扩展停止词典)

    /**
     * 用于测试IKAnalyzer分词效果的方法
     */
    public void testIKAnalyzer() throws Exception {
    	// 创建一个标准分析器对象
    	Analyzer analyzer = new IKAnalyzer();
    	// 获得tokenStream对象
    	// 第一个参数:域名,可以随便给一个
    	// 第二个参数:要分析的文本内容
    	TokenStream tokenStream = analyzer.tokenStream("test", "午安煎饼计划,java组里人才辈出,写的周报超有意思的");
    	// 添加一个引用,可以获得每个关键词
    	CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
    	// 添加一个偏移量的引用,记录了关键词的开始位置以及结束位置
    	OffsetAttribute offsetAttribute = tokenStream.addAttribute(OffsetAttribute.class);
    	// 将指针调整到列表的头部
    	tokenStream.reset();
    	// 遍历关键词列表,通过incrementToken方法判断列表是否结束
    	while (tokenStream.incrementToken()) {
    		System.out.print(charTermAttribute + "\t");// 取关键词
    	}
    	tokenStream.close();
    }
    

    从执行结果来看很不错

    展开全文
  • 安装中文分词器IKAnalyzer,并重新启动 进入容器 docker exec -it elasticsearch /bin/bash 下载文件 #此命令需要在容器中运行 elasticsearch-plugin install ...
  • solr7.2.1环境搭建和中文分词器IK配置 亲测可用,安装过程自己记录的。
  • 简介 IK Analyzer是一个开源的,基于Java语言开发的轻量级的中文分词工具包; 最初,它是以开源项目Luence 为应用主体的,结合词典分词和...本篇就介绍如何给ES安装插件,以及使用ik中文分词器进行搜索,最后介绍一下
  • 它是以开源项目Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件,IK 实现了简单的分词歧义排除算法,标志着 IK 分词器从单纯的词典分词向模拟语义分词衍化。 作用: 有中文语义分析的效果, 对中文...
  • IK Analyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包。从 2006年 12 月推出 1.0 版... 在 2012 版本中,IK 实现了简单的分词歧义排除算法,标志着 IK 分词器从单纯的词典分词向模拟语义分词衍化。
  • Solr7.5.0配置中文分词器IKAnalyzer-附件资源
  • Elasticsearch 中文分词器 IK 的安装与使用

    千次阅读 多人点赞 2021-08-23 22:13:46
    ES默认对英文文本的分词器支持较好,但和lucene一样,如果需要对中文进行全文检索,那么需要使用中文分词器,同lucene一样,在使用中文全文检索前,需要集成IK分词器。 那么我们接下来就来安装IK分词器,以实现中文...
  • 用于elasticsearch7.6.2配套的中文分词器,欢迎大家使用 下面是它的描述,用于elasticsearch7.6.2配套的中文分词器
  • IK中文分词器资源包

    2018-11-30 10:36:29
    IK中文分词器资源包
  • Elasticsearch 内置的分词器中文不友好,会把中文分成单个字来进行全文检索,不能达到想要的结果 看一个例子: curl -XGET 'http://localhost:9200/_analyze?pretty&analyzer=standard' -d ' 第二更新 ' #返回...
  • IKAnalyzer中文分词器

    2018-10-27 16:45:33
    IKAnalyzer分词器,是由java编写的中文分词工具包,目前在lucene以及solr中用的比较多,采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式
  • Elasticsearch IK分词和pingyin分词安装
  • 1、顾名思义,分词器就是用来分词的(好像废话。 2、除此之外,有时候感叹语言的博大精深,一种东西有许多种叫法,就从英文来说,monther,mum dady father 这种同义词,其实我们是期望用户不管是输入的哪个叫法,...
  • es中文分词器ik的安装

    千次阅读 2018-04-10 10:20:13
    首先下载相应的版本的ik分词器安装包,下载路径ik分词器下载解压到ik文件夹下把ik文件夹放到es的plugins目录下,重启es测试输入curl -XGET 'http://localhost:9200/_analyze?pretty&amp;analyzer=ik_max_word' -...
  • IKAanalyzer2.0.2源代码 博文链接:https://linliangyi2007.iteye.com/blog/165287
  • ElasticSearch 安装中文分词器 IK Analyzer

    千次阅读 2019-01-15 21:10:33
    全文搜索对于中文分词很重要,所以需要IK插件分词支持中文分词。英文使用空格很容易分词中文需要根据词意进行分词,需要【字典】支持。 安装 插件项目:https://github.com/medcl/elasticsearch-analysis-ik 未...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 15,129
精华内容 6,051
关键字:

中文分词器ik

友情链接: XmlHttp.rar