-
2022-03-24 21:32:09
Ik分词器安装使用
中文分词器
standard 分词器,仅适用于英文。
GET /_analyze { "analyzer": "standard", "text": "中华人民共和国人民大会堂" }
我们想要的效果是什么:中华人民共和国,人民大会堂
IK分词器就是目前最流行的es中文分词器
安装
官网:https://github.com/medcl/elasticsearch-analysis-ik
下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases
根据es版本下载相应版本包。
解压到 es/plugins/ik中。
重启es
ik分词器基础知识
ik_max_word: 会将文本做最细粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民大会堂,人民大会,大会堂”,会穷尽各种可能的组合;
ik_smart: 会做最粗粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国,人民大会堂”。
ik分词器的使用
存储时,使用ik_max_word,搜索时,使用ik_smart
PUT /my_index { "mappings": { "properties": { "text": { "type": "text", "analyzer": "ik_max_word", "search_analyzer": "ik_smart" } } } }
搜索
GET /my_index/_search?q=中华人民共和国人民大会堂
ik配置文件
ik配置文件
ik配置文件地址:es/plugins/ik/config目录
IKAnalyzer.cfg.xml:用来配置自定义词库
main.dic:ik原生内置的中文词库,总共有27万多条,只要是这些单词,都会被分在一起
preposition.dic: 介词
quantifier.dic:放了一些单位相关的词,量词
suffix.dic:放了一些后缀
surname.dic:中国的姓氏
stopword.dic:英文停用词
ik原生最重要的两个配置文件
main.dic:包含了原生的中文词语,会按照这个里面的词语去分词
stopword.dic:包含了英文的停用词
停用词,stopword
a the and at but
一般,像停用词,会在分词的时候,直接被干掉,不会建立在倒排索引中
自定义词库
(1)自己建立词库:每年都会涌现一些特殊的流行词,网红,蓝瘦香菇,喊麦,鬼畜,一般不会在ik的原生词典里
自己补充自己的最新的词语,到ik的词库里面
IKAnalyzer.cfg.xml:ext_dict,创建mydict.dic。
补充自己的词语,然后需要重启es,才能生效
(2)自己建立停用词库:比如了,的,啥,么,我们可能并不想去建立索引,让人家搜索
custom/ext_stopword.dic,已经有了常用的中文停用词,可以补充自己的停用词,然后重启es
使用mysql热更新 词库
热更新
每次都是在es的扩展词典中,手动添加新词语,很坑
(1)每次添加完,都要重启es才能生效,非常麻烦
(2)es是分布式的,可能有数百个节点,你不能每次都一个一个节点上面去修改
es不停机,直接我们在外部某个地方添加新的词语,es中立即热加载到这些新词语
热更新的方案
(1)基于ik分词器原生支持的热更新方案,部署一个web服务器,提供一个http接口,通过modified和tag两个http响应头,来提供词语的热更新
(2)修改ik分词器源码,然后手动支持从mysql中每隔一定时间,自动加载新的词库
更多相关内容 -
es中文分词器 ik分词器.zip
2020-04-24 11:00:56因为es本身的分词器对中文不是特别友好,所以使用ik分词器,分为 两种 模式,一种是粗 模式,一种是细模式,还希望能帮助到刚刚接触的人 -
es中文分词器ik
2018-04-14 18:23:59es中文分词器ikes中文分词器ikes中文分词器ikes中文分词器ikes中文分词器ik -
Elasticsearch的开源中文分词器 IK Analysis.zip
2019-07-19 05:55:20IK中文分词器在Elasticsearch上的使用。原生IK中文分词是从文件系统中读取词典,es-ik本身可扩展成从不同的源读取词典。目前提供从sqlite3数据库中读取。es-ik-plugin-sqlite3使用方法: 1. 在elasticsearch.yml中... -
中文分词器 IK
2021-04-23 16:09:441、中文分词器IK插件介绍 2、Linux环境安装中文分词器IK插件 3、自定义扩展分词器文件 4、elasticsearch文档映射概述 1、中文分词器IK插件介绍 1.1 分词器简介 在对文档(Document)中的内容进行索引前, 需要对文档...本章内容概述
1、中文分词器IK插件介绍 2、Linux环境安装中文分词器IK插件 3、自定义扩展分词器文件 4、elasticsearch文档映射概述
1、中文分词器IK插件介绍
1.1 分词器简介
在对文档(Document)中的内容进行索引前, 需要对文档的内容使用分析对象(分词器)进行分词. 分词器:从一串文本中切分出来一个个的词条,并对每个词条进行标准化。 包含三部分: character filter: 分词之前的预处理,过滤掉HTML标签,特殊符号转换等; tokenizer: 分词 token filter: 标准化,比如大小写转换,同义词转换等 分词的目的是为了索引, 索引的目的是为了搜索. 分词的过程是 先分词, 再过滤: 分词: 将Document中Field域的值切分成一个一个的单词. 具体的切分方法(算法)由具体使用的分词器内部实现. 过滤: 去除标点符号,去除停用词(的、是、is、the、a等), 词的大写转为小写. 分词流程图:
停用词说明: 停用词是指为了节省存储空间和提高搜索效率, 搜索引擎在索引内容或处理搜索请求时会自动忽略的字词, 这些字或词被称为"stop words". 如语气助词、副词、介词、连接词等, 通常自身没有明确的含义,只有放在一个上下文语句中才有意义(如:的、在、啊, is、a等). 例如: 原始文档内容: Lucene is a Java full-text search engine 分析以后的词: lucene java full text search engine
1.2 ES分词器介绍
因为Elasticsearch中默认的标准分词器分词器对中文分词不是很友好,会将中文词语拆分成一个一个中文的汉子。因此引入中文分词器 -es-ik插件。 es内置种分词器,他们分别是、standard analyzer、simple analyzer、whitespace analyzer、language analyzer。所以如果 是中文还要程序员自动手动安装中文分词器。 假设有如下一段话: Set the shape to semi-transparent by calling set_trans(5) standard analyzer:(默认的)他会将词汇单元转换为小写形式,并去除停用词标点符号,支持中文采用的方法是单字切分。 结果是 set, the, shape, to, semi, transparent, by, calling, set_trans, 5(默认的是standard) simple analyzer:首先会通过非字母字符来分割文本信息,然后将词汇单元统一为小写形式,该分析器会出掉数字类型的字符。 结果是 set, the, shape, to, semi, transparent, by, calling, set, trans whitespace analyzer:仅仅是去除空格,对字符没有lowcase化,不支持中文;并且不对生成的词汇单元进行任何标准化处理。 结果是 Set, the, shape, to, semi-transparent, by, calling, set_trans(5) language analyzer:特定的语言的分词器,不支持中文
1.3 演示ES传统分词器
通过Postman访问如下地址:http://192.168.34.64:9200/_analyze
分词结果:
{ "tokens": [ { "token": "奥", "start_offset": 0, "end_offset": 1, "type": "<IDEOGRAPHIC>", "position": 0 }, { "token": "迪", "start_offset": 1, "end_offset": 2, "type": "<IDEOGRAPHIC>", "position": 1 }, { "token": "a4l", "start_offset": 2, "end_offset": 5, "type": "<ALPHANUM>", "position": 2 } ] }
1.4 IK分词器介绍
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目Lucene为应用主体的,结合词典分词和文法 分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为 面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认 优化实现。 采用了特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中 文词汇(姓名、地名处理)等分词处理。 对中英联合支持不是很好,在这方面的处理比较麻烦.需再做一次查询,同时是支持个人词条的优化的词典存储,更小的内存占用。 支持用户词典扩展定义。 针对Lucene全文检索优化的查询分析器IKQueryParser;采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene检索 的命中率。
2、Linux环境安装中文分词器IK插件
2.1 下载及安装
下载地址: https://github.com/medcl/elasticsearch-analysis-ik/releases 注意: es-ik分词插件版本一定要和es安装的版本对应
第一步:下载es的IK插件[比如:elasticsearch-analysis-ik-6.4.3.zip]命名改为ik,然后解压 第二步: 上传到/usr/local/elasticsearch-6.4.3/plugins
第三步: 重启elasticsearch即可
2.2 演示IK分词器
分词结果:
{ "tokens": [ { "token": "奥迪", "start_offset": 0, "end_offset": 2, "type": "CN_WORD", "position": 0 }, { "token": "a4l", "start_offset": 2, "end_offset": 5, "type": "LETTER", "position": 1 } ] }
注:IK分词器默认有一些热词,但是不包含所有,我们可以自定义分词器文件
3、自定义扩展分词器文件
1、在/usr/local/elasticsearch-6.4.3/plugins/ik/config目录下创建custom文件夹 mkdir custom 2、进入custom目录,然后创建new_word.dic文件 touch new_word.dic 3、编辑new_word.dic文件,然后加入新的热词 vim new_word.dic 盘它 硬核 老表 王者荣耀 洪荒之力 马云 一带一路 4、配置文件引入新的自定义热词文件 vi IKAnalyzer.cfg.xml
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Uuur9CuJ-1619165360388)(images/77_引入自定义热词.png)]
5、重启elasticsearch 先杀进程,再重启
4、elasticsearch文档映射概述
已经把ElasticSearch的核心概念和关系数据库做了一个对比,索引(index)相当于数据库,类型(type)相当于数据表,映射 (Mapping)相当于数据表的表结构。ElasticSearch中的映射(Mapping)用来定义一个文档,可以定义所包含的字段以及字段的类型、分 词器及属性等等。 文档映射就是给文档中的字段指定字段类型、分词器。 使用Kibana 运行GET /newcapecedu/user/_mapping 运行结果:
{ "newcapecedu": { "mappings": { "user": { "properties": { "age": { "type": "long" }, "car": { "type": "text", "fields": { "keyword": { "type": "keyword", "ignore_above": 256 } } }, "name": { "type": "text", "fields": { "keyword": { "type": "keyword", "ignore_above": 256 } } }, "sex": { "type": "long" } } } } } }
由此得出结论,ElasticSearch的默认数据类型:数值类型都是long,字符串类型都是text
4.1 文档映射分类
动态映射: 我们知道,在关系数据库中,需要事先创建数据库,然后在该数据库实例下创建数据表,然后才能在该数据表中插入数据。而 ElasticSearch中不需要事先定义映射(Mapping),文档写入ElasticSearch时,会根据文档字段自动识别类型,这种机制称之为动态映 射。 静态映射: 在ElasticSearch中也可以事先定义好映射,包含文档的各个字段及其类型等,这种方式称之为静态映射。
-
elasticsearch 中文分词器ik
2016-09-13 14:11:21https://github.com/medcl/elasticsearch-analysis-ik elasticsearch 中文分词器 -
中文分词器IK Analyzer 2012FF_hf1
2018-06-26 15:00:16亲测可用的中文分词器,也可以到IK Analyzer官网下载,网址如下: https://code.google.com/archive/p/ik-analyzer/downloads 在solrcode的schema.xml文件中的配置如下: 配置中文分词器的fieldType: ... -
中文分词器IK Analyzer 2012
2018-06-22 16:04:35中文分词器IK Analyzer 2012优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的,在 2012 版本, 词典支持中文,英文,数字混合词语。 -
solr4的IK中文分词器IKAnalyzer2012FF_u1.jar和相关xml文件
2018-02-28 15:52:35solr4.10使用的中文分词器,包括IKAnalyzer2012FF_u1.jar,IKAnalyzer.cfg.xml,stopword.dic,及Cloudera平台下安装solr分词器教程 -
中文分词器IK Analyzer 2012FF_hf1_Solr4.x.rar
2019-07-24 12:54:25内容包括:doc、IKAnalyzer.cfg.xml、IKAnalyzer2012FF_u1.jar、IKAnalyzer中文分词器V2012_FF使用手册.pdf、LICENSE.txt、NOTICE.txt、stopword.dic -
Elasticsearch 7.X 中文分词器 ik 使用,及词库的动态扩展
2022-01-02 11:13:56一、ik中文分词器 上篇文章我们学习了ES集群分片和水平扩容,前面再使用的时候应该就会发现,在做match 匹配时,默认会进行分词,但当查询内容是中文时,分词效果是一个字被认定了一个词,这显然不符合我们对中文...一、ik中文分词器
上篇文章我们学习了ES集群分片和水平扩容,前面再使用的时候应该就会发现,在做match 匹配时,默认会进行分词,但当查询内容是中文时,分词效果是一个字被认定了一个词,这显然不符合我们对中文分词的效果,因此本篇我们讲解下ES中中文分词器ik 的使用。
上篇文章地址:https://blog.csdn.net/qq_43692950/article/details/122246286
ik是基于java开发的轻量级的中文分词工具包。它是以开源项目Luence为主体的,结合词典分词和文法分析算法的中文分词组件,下面是ik的Github地址:
官方提供的 ik 和 ES的对应版本关系:
ik 的分词粒度:ik_max_word
:会将文本做最细粒度(拆到不能再拆)的拆分,例如「中华人民共和国国歌」会被拆分为「中华人民共和国、中华人民、中华、华人、人民共和国、人民、人、民、共和国、共和、和、国国、国歌」,会穷尽各种可能的组合ik_smart
:会将文本做最粗粒度(能一次拆分就不两次拆分)的拆分,例如「中华人民共和国国歌」会被拆分为「中华人民共和国、国歌」
二、ES安装ik
首先需要ik包,下载地址:
我们选用的是ES 7.140 版本的,所以这里要下载 7.14.0 的 ik:
下载完成后,新建ik
目录,并将解压后的文件放在ik
目录下:
下面将ik
目录复制到es
安装目录的plugins
目录下:
重新启动 es:
可以看到已经自动加载ik的配制。三、测试中文分词
ik_max_word 细粒度分词
使用PostMan 向ES服务器 发送Get请求:
http://localhost:9200/_analyze
请求体内容:
{ "text": "人民共和国", "analyzer":"ik_max_word" }
已经不是以前的一个中文就是一个词了,下面再测试下 ik_smart 的效果:
ik_smart 粗粒度分词
现在就已经成功使用了,ik中文分词器。四、ik 扩展词汇
上面已经使用了ik分词器,已经有了分词效果,但是再对一些名词进行分词时,会怎么样的,如果测试下:
德玛西亚
这个词,我们希望作为一个整体分词,下面看下结果:
可以看到将
德玛西亚
这个词给分开了,这是由于Ik自带的分词库中并没有这个名词,所以就不知道怎么分了,此时,我们就可以进行扩展词汇:首先进入es安装目录,进入
plugins\ik\config
目录下,创建custom.dic
文件,内容我们写入:德玛西亚
:在这里插入图片描述
下面修改
plugins\ik\config\IKAnalyzer.cfg.xml
文件:
下面重启es,
可以看到已经加载我们自定义的词汇。下面再来做上面的请求:
已经分词出了德玛西亚
这个词语。五、远程动态词库
上面已经实现对词库的扩展,但是会发现一个弊端,就是一旦扩展后就需要重启es使扩展词汇生效,如果使生产环境怎么能随便对es进行重启呢,对此es提供了远程词汇的方式,我们对远程词汇文件进行修改,es每次都以http请求的方式获取分词,但要符合两个条件:
- 该 http 请求需要返回两个头部(header),一个是 Last-Modified,一个是 ETag,这两者都是字符串类型,只要有一个发生变化,该插件就会去抓取新的分词进而更新词库。
- 该 http 请求返回的内容格式是一行一个分词,换行符用 \n 即可。
满足上面两点要求就可以实现热更新分词了,不需要重启 ES 实例。
对此,官方也给出了方案,就是将分词文件放在nginx中,当文件被修改nginx自动返回相应的 Last-Modified 和 ETag:
下面我们根据官方的方案进行实现下,首先新建一个ik_dict.txt
,写入以下内容:德玛西亚 弗雷尔卓德 小毕超
然后将该文件放在nginx的静态资源目录下:
然后启动nginx,访问http://192.168.40.167:8080/ik_dict.txt
,注意修改为自己的ip:
然后修改es安装目录下/plugins/ik/config/IKAnalyzer.cfg.xml
文件:
然后重启es,测试效果:
由于我们在远程库中配制了小毕超
所以这里可以分析出来。下面测试下没有配制的词语,比如
果粒橙
这个词语:
现在是一个字算了一个词语,下面我们修改ik_dict.txt
文件:
再来请求下:
此时就实现了,无需重启es,热更新词库的效果了。六、扩展 - 更新历史索引
上面已经实现了动态词库的效果,上面使用的都是直接使用分词器进行测试的,在实际使用中不可能这样做的,都是去查询数据的,所以这里就会出现一个问题。
在我们自定义拓展词库更改后,在原先的索引文档中,由于不是新插入的数据,所以其倒排索引列表还是原先的分词列表数据,导致就算拓展了词库,新增的分词也没有生效。在不重新导入数据的前提下,处理办法如下:
通过_update_by_query去更新匹配的文档,如果没有指定查询,那么就会在每个文档上执行更新:
向es服务器发送POST请求:
http://127.0.0.1:9200/user/_update_by_query?conflicts=proceed
其中user为索引名称,conflicts表示如果更新过程中发生异常冲突时如何处理,有两种方案:
- abort:中止(默认)
- proceed:继续执行
注意更新索引,会影响线上的es的 qps,尽量选择夜深人静的时候进行更新。
喜欢的小伙伴可以关注我的个人微信公众号,获取更多学习资料! -
IK中文分词器
2019-05-06 19:31:03IKAnalyaer中文分词器,配合slor使用,让你的搜索效果更佳 -
004 中文分词器IK-Analyzer
2021-04-12 09:18:11第三方的中文分词器有很多,这里采用IK-analyzer GoogleCode 开源项目 :http://code.google.com/p/ik-analyzer/,开发包下载地址:https://code.google.com/archive/p/ik-analyzer/downloads------需要翻墙 阿里云...Lucene是apache的项目,本身不支持中文分词,所以咱们需要中文分词器
第三方的中文分词器有很多,这里采用IK-analyzer
GoogleCode 开源项目 :http://code.google.com/p/ik-analyzer/,开发包下载地址:https://code.google.com/archive/p/ik-analyzer/downloads------需要翻墙 阿里云 > 教程中心 > java教程 > IK Analyzer 中文分词器:https://www.aliyun.com/jiaocheng/337819.html
Pom:
<dependency> <groupId>com.janeluo</groupId> <artifactId>ikanalyzer</artifactId> <version>2012_u6</version> </dependency>
如果你用的是高版本Lucene,那么上面的pom对你无用,可以看一下004.1文档,但我失败了,我只好下一个低版本的Lucene,所以这里降级为4.10.3
http://archive.apache.org/dist/lucene/java/4.10.3/ #下载地址
IK(IK-analyzer,后续都简称IK)有三个配置文件:
IKAnalyzer.cfg.xml #指定哪个文件是扩展字典、哪个是扩展停止词典 ext.dic #扩展词典,可以添加新词汇 stopword.dic #扩展停止词典,过滤掉那些词汇
其中扩展词典和扩展停止词典都是一行写一个词的,第二个词需要换行再写。
IK的分词案例(本案例编写了扩展词典和扩展停止词典)
/** * 用于测试IKAnalyzer分词效果的方法 */ public void testIKAnalyzer() throws Exception { // 创建一个标准分析器对象 Analyzer analyzer = new IKAnalyzer(); // 获得tokenStream对象 // 第一个参数:域名,可以随便给一个 // 第二个参数:要分析的文本内容 TokenStream tokenStream = analyzer.tokenStream("test", "午安煎饼计划,java组里人才辈出,写的周报超有意思的"); // 添加一个引用,可以获得每个关键词 CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class); // 添加一个偏移量的引用,记录了关键词的开始位置以及结束位置 OffsetAttribute offsetAttribute = tokenStream.addAttribute(OffsetAttribute.class); // 将指针调整到列表的头部 tokenStream.reset(); // 遍历关键词列表,通过incrementToken方法判断列表是否结束 while (tokenStream.incrementToken()) { System.out.print(charTermAttribute + "\t");// 取关键词 } tokenStream.close(); }
从执行结果来看很不错
-
docker安装中文分词器IKAnalyzer7.7.0
2021-04-07 14:49:18安装中文分词器IKAnalyzer,并重新启动 进入容器 docker exec -it elasticsearch /bin/bash 下载文件 #此命令需要在容器中运行 elasticsearch-plugin install ... -
solr环境搭建和中文分词器IK配置
2018-04-11 13:10:25solr7.2.1环境搭建和中文分词器IK配置 亲测可用,安装过程自己记录的。 -
ELK系列(十)、ES中文分词器IK插件安装和配置远程词库热加载
2020-05-27 01:12:04简介 IK Analyzer是一个开源的,基于Java语言开发的轻量级的中文分词工具包; 最初,它是以开源项目Luence 为应用主体的,结合词典分词和...本篇就介绍如何给ES安装插件,以及使用ik中文分词器进行搜索,最后介绍一下 -
Solr - 中文分词器IK Analyzer的简介及配置
2020-01-28 22:55:35它是以开源项目Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件,IK 实现了简单的分词歧义排除算法,标志着 IK 分词器从单纯的词典分词向模拟语义分词衍化。 作用: 有中文语义分析的效果, 对中文... -
使用IK Analyzer实现中文分词之Java实现
2017-03-29 23:00:55IK Analyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包。从 2006年 12 月推出 1.0 版... 在 2012 版本中,IK 实现了简单的分词歧义排除算法,标志着 IK 分词器从单纯的词典分词向模拟语义分词衍化。 -
Solr7.5.0配置中文分词器IKAnalyzer-附件资源
2021-03-05 15:28:14Solr7.5.0配置中文分词器IKAnalyzer-附件资源 -
Elasticsearch 中文分词器 IK 的安装与使用
2021-08-23 22:13:46ES默认对英文文本的分词器支持较好,但和lucene一样,如果需要对中文进行全文检索,那么需要使用中文分词器,同lucene一样,在使用中文全文检索前,需要集成IK分词器。 那么我们接下来就来安装IK分词器,以实现中文... -
elasticsearch-ik中文分词器7.6.2.zip
2020-04-11 15:01:14用于elasticsearch7.6.2配套的中文分词器,欢迎大家使用 下面是它的描述,用于elasticsearch7.6.2配套的中文分词器, -
IK中文分词器资源包
2018-11-30 10:36:29IK中文分词器资源包 -
Elasticsearch 中文分词器 IK 配置和使用
2019-09-29 10:51:56Elasticsearch 内置的分词器对中文不友好,会把中文分成单个字来进行全文检索,不能达到想要的结果 看一个例子: curl -XGET 'http://localhost:9200/_analyze?pretty&analyzer=standard' -d ' 第二更新 ' #返回... -
IKAnalyzer中文分词器
2018-10-27 16:45:33IKAnalyzer分词器,是由java编写的中文分词工具包,目前在lucene以及solr中用的比较多,采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式 -
ElasticSearch安装中文分词器IK和拼音分词器
2021-12-19 20:09:12Elasticsearch IK分词和pingyin分词安装 -
ES第九天-分词,自定义分析器,中文分词器ik与基于中文分词器ik的全文检索
2020-07-26 15:23:021、顾名思义,分词器就是用来分词的(好像废话。 2、除此之外,有时候感叹语言的博大精深,一种东西有许多种叫法,就从英文来说,monther,mum dady father 这种同义词,其实我们是期望用户不管是输入的哪个叫法,... -
es中文分词器ik的安装
2018-04-10 10:20:13首先下载相应的版本的ik分词器安装包,下载路径ik分词器下载解压到ik文件夹下把ik文件夹放到es的plugins目录下,重启es测试输入curl -XGET 'http://localhost:9200/_analyze?pretty&analyzer=ik_max_word' -... -
lucene开源中文分词器 IKAnalyzer2.0.2 共享及源码发布
2019-03-01 16:35:05IKAanalyzer2.0.2源代码 博文链接:https://linliangyi2007.iteye.com/blog/165287 -
ElasticSearch 安装中文分词器 IK Analyzer
2019-01-15 21:10:33全文搜索对于中文分词很重要,所以需要IK插件分词支持中文分词。英文使用空格很容易分词,中文需要根据词意进行分词,需要【字典】支持。 安装 插件项目:https://github.com/medcl/elasticsearch-analysis-ik 未...