精华内容
下载资源
问答
  • IK 中文分词器
    2022-05-16 23:50:37

            IK 中文分词器,很少有直接下载使用的,都需要通过 github 下载源码,本地编译打包。就是 maven 工程中的 package 能力。
    github 上提供的源码不是伴随 ES 的每个版本提供,一般只有分词器无效后,才提供新的版本。通常都是伴随 ES 的次版本号提供 IK 分词器版本。下载对应的 IK 分词器源码,本地 package 打包,生成 zip 压缩包,既是 IK 在 ES 中的分词器安装包。
    https://github.com/medcl/elasticsearch-analysis-ik.git

    ⦁    安装IK 中文分词器

            ElasticSearch 是一个开箱即用的工具。插件安装方式也非常简单。
    将 IK 分词器的 zip 压缩文件上传到两个Linux节点(es01和es02)中,并在 ElasticSearch 安装目录的 plugins 目录中手工创建子目录,目录命名为 ik。将 zip 压缩文件解压缩到新建目录 ik 中。重新启动ElasticSearch 即可。


    上传中文分词器 zip 压缩文件到 ElasticSearch 应用目录中: 
    elasticsearch-analysis-ik-6.8.4.zip 到/es01/app/


    修改上传后的压缩文件的用户组和用户
    chown -R es01.es01 elasticsearch-analysis-ik-6.8.4.zip


    切换到es01用户在plugins目录下创建放IK 中文分词子目录:mkdir ik


    移动压缩文件到 ik 插件目录中:
    mv elasticsearch-analysis-ik-6.8.4.zip ik/


    解压缩:
    unzip elasticsearch-analysis-ik-6.8.4.zip


    所有的分词器,都是针对词语的,不是语句的。拆分单元是词语,不是语句。

    ⦁    测试IK 分词器


    这样中文分词器就安装好,重启ElasticSearch 测试,在启动  ./kibana

    IK 分词器提供了两种 analyzer,分别是 ik_max_wordik_smart


    ik_max_word: 
    会将文本做最细粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,国,国歌”,会穷尽各种可能的组合;


    ik_smart: 
    会做最粗粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。
    分出简单词汇:ik_smart
     

    ⦁    IK 配置文件

    IK 的配置文件在 ElasticSearch 安装目录/usr/local/es02/plugins/ik/config中。

    配置文件有:
    main.dic :  IK 中内置的词典。  main dictionary。记录 了 IK 统计的所有中文单词。一行一词。文件中未记录的单词,IK 无法实现有效分词。
    如:雨女无瓜。不建议修改当前文件中的单词。这个是最核心的中文单词库。就好像,很多的网络词不会收集到辞海中一样。


    quantifier.dic : IK 内置的数据单位词典suffix.dic :IK 内置的后缀词典surname.dic :IK 内置的姓氏词典stopword.dic :IK 内置的英文停用词


    preposition.dic :IK 内置的中文停用词(介词)


    IKAnalyzer.cfg.xml :  
    用于配置自定义词库的自定义词库是用户手工提供的特殊词典,类似网络热词,特定业务用词等。

    ext_dict:
    自定义词库,配置方式为相对于IKAnalyzer.cfg.xml文件所在位置的相对路径寻址方式。相当于是用户自定义的一个main.dic文件。是对main.dic文件的扩展。 

    ext_stopwords:
    自定义停用词,配置方式为相对于IKAnalyzer.cfg.xml文件所在位置的相对路径寻址方式。相当于是preposition.dic的扩展。

    注意:IK的所有的 dic词库文件,必须使用 UTF-8字符集。不建议使用 windows自带的文本编辑器编辑。Windows中自带的文本编辑器是使用 GBK字符集 。IK不识别,是乱码。
     

    更多相关内容
  • 用于elasticsearch7.6.2配套的中文分词器,欢迎大家使用 下面是它的描述,用于elasticsearch7.6.2配套的中文分词器
  • elasticsearch-7.0.0版本 ik中文分词器,编译好的文件,亲测成功,2.4.6版本的见在本人其他资源中寻找,免费下载,成功请给好评。
  • IK中文分词器

    2019-01-13 09:24:27
    ikanalyzer-2012_u6.jar\org\wltea\analyzer\lucene 将此路径下的两个文件替换对应目录文件
  • 因为es本身的分词器中文不是特别友好,所以使用ik分词器,分为 两种 模式,一种是粗 模式,一种是细模式,还希望能帮助到刚刚接触的人
  • IK中文分词器原理

    2017-05-12 09:20:07
    详细讲解IK分词器原理
  • ik中文分词器插件

    2019-03-26 12:55:03
    solr在7.0后内部集成有自己的中文分词器,但是其内部的分词器只是机械的分词,使用插件将更符合中文分词的习惯!
  • 文章目录分词器以及ik中文分词器概念ik分词器的安装环境准备设置jdk环境变量下载maven安装包并解压设置path验证maven是否安装成功下载IK分词器并安装使用IK分词器查询文档term词条查询match全文查询 分词器以及ik...

    分词器以及ik中文分词器

    概念

    在这里插入图片描述

    在这里插入图片描述

    ik分词器的安装

    因为es自带的分词器对英文非常友好,但是对中文很不友好,所以我们需要安装一个ik分词器。

    特点

    ​ IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包;

    ​ 是一个基于Maven构建的项目;

    ​ 具有60万字/秒的告诉处理能力;

    ​ 支持用户词典扩展定义;

    环境准备

    Elasticsearch需要使用ik,就要先构建ik的jar包,这里要用到maven包管理工具,而maven需要java环境,而Elasticsearch内置了jdk,所以可以将JAVA_HOME设置为Elasticsearch内置的jdk。

    设置jdk环境变量

    vim /etc/profile
    #在文件末尾添加jdk的环境变量
    export JAVA_HOME=/opt/elasticsearch-7.16.2/jdk
    export PATH=$PATH:${JAVA_HOME}/bin
    
    #保存退出后,重新加载profile
    source /etc/profile
    

    下载maven安装包并解压

    在这里插入图片描述

    设置path

    打开文件

    vim /etc/profile.d/maven.sh
    

    将下面的内容复制到文件,保存

    export MAVEN_HOME=/opt/apache-maven-3.8.4
    export PATH=${MAVEN_HOME}/bin:${PATH}
    

    设置好Maven的路径之后,需要运行下面的命令使其生效

    source /etc/profile.d/maven.sh
    

    验证maven是否安装成功

    mvn -v
    

    在这里插入图片描述

    下载IK分词器并安装

    下载地址:https://github.com/medcl/elasticsearch-analysis-ik

    在这里插入图片描述

    然后把zip包安装到elasticsearch/plugins目录下新建的目录analysis-ik,并解压,如下图:

    在这里插入图片描述

    然后解压ik分词器,因为ik分词器是zip包,所以需要使用unzip命令解压,如下图:

    在这里插入图片描述

    解压之后需要把ik的config目录中的所有内容复制到elasticsearch-7.16.2的config配置文件中,如下图:

    在这里插入图片描述

    最后记得一定要重启Elasticsearch服务!!!

    使用IK分词器

    IK分词器有两种分词模式:ik_max_word和ik_smart模式。

    1.ik_max_word

    会将文本做最细颗粒度的拆分,如下图:

    在这里插入图片描述

    2.ik_smart

    这个分词模式的颗粒度比较粗,如下图:

    在这里插入图片描述

    查询文档

    词条查询:term

    ​ 词条查询不会分析查询条件,只有当词条和查询字符串完全匹配时才匹配搜索。

    全文查询:match

    ​ 全文查询会分析查询条件,先将查询条件进行分词,然后查询,求并集。

    term词条查询

    term词条查询的例子如下图:

    在这里插入图片描述

    在这里插入图片描述

    为什么什么结果都没有查出来呢?主要是因为ES默认使用的是standar分词器,会把中文一个字一个字的分,所以查不到,如果我们查询的是"北"就能成功查询出来数据了,如下图:

    在这里插入图片描述

    因此我们在创建索引的时候,就要手动的添加索引为ik分词器,要不然ES使用的一直是默认的standar分词器。

    在这里插入图片描述

    然后添加三条文档,如下图:

    在这里插入图片描述

    查询一下结果,如下图:

    在这里插入图片描述

    重新搜索“北京”关键词,如下图:

    在这里插入图片描述

    但是如果我现在搜索的词条是"北京昌平",因为我们的文档中没有address字段为"北京昌平"的分词,所以结果什么也查不到,如下图:

    在这里插入图片描述

    这就是term词条查询,它的搜索关键字会被当做一个整体,不会继续分词,然后拿这个整体去分词库中查询。但是下面的match全文查询不是这样的,它会先把搜索关键字分词,然后拿所有的分词结果去分词库中查询,最后再把查询结果拼接在一起。

    match全文查询

    在这里插入图片描述

    上面是查询结果的并集,不是查询结果的交集。

    展开全文
  • IKAnalyzer中文分词器

    2018-10-27 16:45:33
    IKAnalyzer分词器,是由java编写的中文分词工具包,目前在lucene以及solr中用的比较多,采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式
  • ElasticSearch + IK中文分词器 + kibana.zip(6.2.4版本),SpringBoot 整合 Elasticsearch、IK分词器 实现全文检索所需软件包,文章说明:https://blog.csdn.net/qq_38762237/article/details/89552017
  • IK中文分词器资源包

    2018-11-30 10:36:29
    IK中文分词器资源包
  • 对于ES IK分词插件在中文检索中非常常用,本人也使用了挺久的。但知识细节一直很碎片化,一直没有做详细的整理。过一段时间用的话,也是依然各种找资料,也因此会降低开发效率。所以在有空的时候好好整理下相关资料...
  • Docker安装IK中文分词器

    千次阅读 2022-02-10 12:04:25
    下载IK分词器:(可github下载,可以私信要)elasticsearch-analysis-ik-7.12.1.zip 进入容器: 在plugins目录下创建ik文件夹: 退出容器: docker exec -it elasticsearch /bin/bash cd plugins/ mkdir /usr/...

    下载IK分词器:(可github下载,可以私信要)
    elasticsearch-analysis-ik-7.12.1.zip

    进入容器:

    在plugins目录下创建ik文件夹:
    退出容器:

    docker exec -it elasticsearch /bin/bash
    
    cd plugins/
    
    mkdir /usr/share/elasticsearch/plugins/ik
    
    exit

    拷贝下载好的ik分词器压缩包到ik文件夹中:

    docker cp /home/ubuntu/elasticsearch-analysis-ik-7.12.1.zip elasticsearch:/usr/share/elasticsearch/plugins/ik/

    重新进入容器
    进入ik目录:

    cd /usr/share/elasticsearch/plugins/ik

    解压:

    unzip elasticsearch-analysis-ik-7.12.1.zip 
    
    rm -rf elasticsearch-analysis-ik-7.12.1.zip 



    重启容器: 

    docker restart elasticsearch
    
    docker ps 

     

    展开全文
  • 安装ik中文分词器

    千次阅读 2022-03-31 19:59:49
    1、根据es版本下载对应的中文ik分词器zip资源。官方下载地址 Releases · medcl/elasticsearch-analysis-ik · GitHub 比如我的es版本是8.1.0下载的ik分词器也是8.1.0 2、上传到服务器,我的地址在 cd /home/...

    前提是安装了es:Elasticsearch安装_p&f°的博客-CSDN博客

     1、根据es版本下载对应的中文ik分词器zip资源。官方下载地址

    Releases · medcl/elasticsearch-analysis-ik · GitHub

     比如我的es版本是8.1.0下载的ik分词器也是8.1.0

     2、上传到服务器,我的地址在 cd /home/software/

    3、解压到 你的es安装目录下的/plugins/ik 里,一定是这个文件。

    unzip elasticsearch-analysis-ik-8.1.0.zip -d /usr/local/elasticsearch-8.1.0/plugins/ik

     4、重启es。(切记,切换回非root用户下,重启)

    先查看es,ps -ef|grep elasticsearch, 然后 kill -9 [es],之后在到bin下重启es。

    # 加 -d 表示后台启动,也可去掉前台启动
    /usr/local/elasticsearch-8.1.0/bin/elasticsearch -d

    5、测试看是否成功启动es,访问es网址

    6、看中文ik分词器是否生效

    用postman分别测试以下两种常用中文分词方式。

    • ik_max_word:会将文本做最细粒度的拆分,比如会将"中华人民共和国国歌"拆分为"中华人民共和国,中华人民中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌",会穷尽各种可能的组合,适合Term Query;
    • ik smart:会做最粗粒度的拆分,比如会将"中华人民共和国国歌"拆分为“中华人民共和国,国歌",适合Phrase查询。
       

     

     

    展开全文
  • 该压缩包中包含solr安装包与ik中文分词器,安装也很简单,按照我博客中的步骤即可,亲测有效!!!!!
  • 内容直接拷贝进stopword.dic即可使用(2614行常用停用词包含中英文,符号等)
  • 在elasticsearch 中默认提供的分词器是对中文不友好的,所以我们需要额外的 进行安装一个中文分词器
  • ik中文分词器分词原则、原理

    千次阅读 2019-11-06 11:38:43
    1、IK分词器也是基于正向匹配的分词算法。 2、IK分词器,基本可分为两种模式,一种为smart模式,一种为非smart模式 3、非smart模式所做的就是将能够分出来的词全部输出;smart模式下,IK分词器则会根据内在方法输出...
  • 本文主要介绍了 ik 分词器在es中的一些配置以及原理,包括 下载安装、如何设置es使用ik分词器ik分词器与默认分词器的差异、ik分词自定义设置以及热更等等。 一、安装下载 ik分词器:...
  • 下载 从github下载ik中文分词器,点击地址,需要注意的是,ik分词器和elasticsearch版本必须一致. 安装 下载到本地并解压到elasticsearch中的plugins目录内即可. 测试 测试,进入kibana中的Dev Tools中,在Console中输入:...
  • elasticsearch的ik中文分词器,安装好elasticsearch后还需安装中文分词器
  • # 进入es bin 目录,运行如下脚本安装ik分词器 cd /usr/local/elasticsearch/bin [ajtuser@centos7 bin]$ ./elasticsearch-plugin install ...
  • elasticsearch使用ik中文分词器一、背景二、安装 ik 分词器1、从 github 上找到和本次 es 版本匹配上的 分词器2、使用 es 自带的插件管理 elasticsearch-plugin 来进行安装3、重启es三、测试 ik 分词1、测试默认的...
  • ik中文分词器8.3.0版

    2020-09-23 12:40:48
    ik-analyzer-8.3.0,强大的中文分词器,已经在项目中成功使用
  • ik中文分词器5.5.0

    2017-08-28 17:27:00
    ElasticSearch中使用ik分词器,使用与ES5.5.0。
  • 配置中文分词器IK-Analyzer-Solr7 把本录下的\server\solr\configsets\sample_techproducts_configs\conf文件夹下复制到新创建的product目录下。修改conf/managed-schema文件添加以下配置。 class="org.wltea....

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 15,142
精华内容 6,056
关键字:

ik中文分词器