精华内容
下载资源
问答
  • mmseg4j-core, 用于java中文分析器的mmseg4j核心 MMSEG <dependency> <groupId>com.chenlb.mmseg4j</groupId> <artifactId>mmseg4j-core</artif
  • mmseg4j-core-1.10.0+mmseg4j-solr-2.3.0()mmseg4j-solr-2.3.0.jar 要求 lucene/solr [5.0, ])
  • mmseg4j\mmseg4j-1.8.5.zip

    2012-07-02 08:44:18
    mmseg4j
  • mmseg4j-solr-mmseg4j-solr-2.2.0.zip
  • 本人用的solr是4.10的,经过本人亲测可用,放心下载,包含以下3个jar包: mmseg4j-analysis-1.9.1.jar, mmseg4j-core-1.9.1.jar, mmseg4j-solr-2.2.0.jar
  • 该压缩包包含`mmseg4j-solr-2.3.2.jar`和`mmseg4j-core-1.10.0.jar`,其中solr-2.3.2不是官方的版本,该版本有改动,使得mmseg4j可以很好的支持Solr6,如果你的Solr低于Solr6,请使用官方的mmseg4j-solr-2.3.0.jar...
  • mmseg4j-solr-2.3.0-with-mmseg4j-core是Solr的中文分词包,该压缩包含有mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar。
  • 摘要: mmseg4j支持用户自定义词库,但是由于Solr6的API变到,使得mmseg4j无法使用自己的中文分词库,如果想使用这一功能,只能改源码了。mmseg4j 版本与其对应的Solr版本mmseg4j 1.8.3 只支持 lucene 2.9/3.0 接口 ...

    摘要: mmseg4j支持用户自定义词库,这个配置过程相对简单,但是由于Solr6的API变动,使得mmseg4j无法使用自己的中文分词库,如果想使用这一功能,只能改源码了。

    mmseg4j 版本与其对应的Solr版本

    mmseg4j 1.8.3 只支持 lucene 2.9/3.0 接口 和 solr 1.4。
    mmseg4j 1.8.5 支持 lucene 3.1, solr 3.1。
    mmseg4j 1.9.0 支持 lucene 4.0, solr 4.0。
    mmseg4j 1.9.1 支持 solr/lucene 4.3.1。
    mmseg4j-solr-2.0.0.jar 要求 lucene/solr >= 4.3.0。
    mmseg4j-solr-2.1.0.jar 要求 lucene/solr 4.8.x。
    mmseg4j-solr-2.2.0.jar 要求 lucene/solr [4.9, 4.10.x]。
    mmseg4j-solr-2.3.0.jar 要求 lucene/solr [5.0, ]

    mmseg4j 作者chenlb目前仅支持最高Solr5

    配置mmseg4j 词库

    上一篇[Solr6配置中文分词],已经简单配置了mmseg4j分词,当时去掉了dicPath参数,该参数指定了自定义词库的路径,默认相对于solr_home,也可以是绝对路径。下面我在solr_home中新建文件夹dictionary,并在schema.xml中配置。
    dictionary
    dicPath

    自定义词库文件

    mmseg4j的自定义词库文件命名规则是wordsXXX.dic, mmseg4j 可以从多个文件读取词。它的格式是一行一条数据, XXX 部分是如您自己写的名字,如:源码包里的 data/words-my.dic。注意:自定义词库文件名必需是 “words” 为前缀和 “.dic” 为后缀。并且文件是UTF-8编码的无BOM格式。

    dictionary文件夹下,新建文件words-mmseg4j.dic,然后每行一条记录,添加你的自定义词组。
    保存文件,在windows平台下,默认使用的是ASCI编码方式,需要转化成UTF-8编码,使用Notepad++可以方便做到,选择以UTF-8无BOM格式编码,保存。
    这里写图片描述
    如果没有这个软件,可以用记事本的另存为功能,选择编码方式为UTF-8,那如何做到无BOM格式呢?最简单的方式就是文件的第一行留空,从第二行开始添加你的自定义词组。
    这里写图片描述
    这里写图片描述

    升级mmseg4j

    启动Solr,发现出现异常,好像是mmseg4j词库的工具栏报错:java.lang.NoSuchMethodError: org.apache.solr.core.SolrResourceLoader.getInstanceDir()Ljava/lang/String;
    at com.chenlb.mmseg4j.solr.Utils.getDict(Utils.java:18)

    于是,想办法升级mmseg4j,使其支持Solr6

    展开全文
  • mmseg4j.jar

    2020-06-05 09:32:03
    mmseg4j-solr-2.4.0.jar mmseg4j-analysis-1.9.1.jar mmseg4j-core-1.10.0.jar
  • 与solr4.8匹配的mmseg4j分词器的版本
  • mmseg4j-1.9.1 分词器 包含修复bug的mmseg4j-analysis-1.9.1.jar dist\修复bug下是修复bug后的mmseg4j-analysis-1.9.1.jar
  • mmseg4j-solr-2.3.0.jar

    2021-06-07 16:00:31
    mmseg4j中文分词器 mmseg4j-core-1.10.0.jar mmseg4j-solr-2.3.0.jar两个主要依赖包
  • mmseg4j-1.9.1

    2016-07-06 14:42:45
    mmseg4j-1.9.1
  • mmseg4j相关

    2019-10-06 01:39:32
    mmseg4j相关 http://mmseg4j.googlecode.com/files/mmseg4j-1.8.4.ziphttp://solr-side.googlecode.com/files/solr-1.4-query-parser-extend.zip...
    http://mmseg4j.googlecode.com/files/mmseg4j-1.8.4.zip
    http://solr-side.googlecode.com/files/solr-1.4-query-parser-extend.zip


    posted on 2011-08-19 19:23 lexus 阅读(...) 评论(...) 编辑 收藏

    转载于:https://www.cnblogs.com/lexus/archive/2011/08/19/2146096.html

    展开全文
  • solr6配置mmseg4j

    2017-10-19 10:30:41
    solr6配置mmseg4j,里面包含mmseg4j需要jar包、dic文件、详细配置说明文档,里面有详细截图和需要文件
  • mmseg4j-solr总共4个文件

    2016-03-21 01:13:23
    里面包含了mmseg4j-solr-2.0.0.jar,mmseg4j-solr-2.1.0.jar,mmseg4j-solr-2.2.0.jar,mmseg4j-solr-2.3.0.jar总共4个文件,其中: mmseg4j-solr-2.0.0.jar 要求 lucene/solr >= 4.3.0。在 lucene/solr [4.3.0, 4.7.1]...
  • mmseg4j 2.3 源码

    2015-10-13 20:40:51
    Lucene中文分词 mmseg4j 2.3 源码
  • mmseg4j分词

    2014-01-16 15:10:17
    mmseg4j分词,比较精确,可以跟lucene里面用
  • mmseg4j2.0

    2014-11-07 11:40:46
    <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" /> ...
  • mmseg4j中文分词器

    2016-05-07 14:26:36
    mmseg4j中文分词器
  • solr mmseg4j 中文分词器

    2015-11-24 19:38:54
    mmseg4j-solr-2.3.0.jar 支持 solr5.x 版本以上 分词器本身并未做升级还是mmseg4j-core-1.10.0 和 mmseg4j-analysis-1.9.1.jar为了方便也一并上传
  • solr+mmseg4j

    2019-10-07 14:15:55
    mmseg4j 第一个版本就可以方便地与 solr 集成,在 google code 上面有简单的说明,第一版的发布博客也有简单的使用说明:中文分词 mmseg4j。为了更清楚说明在 solr 中使用 mmseg4j 中文分词,还是写篇博客吧。 目前...

    mmseg4j 第一个版本就可以方便地与 solr 集成,在 google code 上面有简单的说明,第一版的发布博客也有简单的使用说明:中文分词 mmseg4j。为了更清楚说明在 solr 中使用 mmseg4j 中文分词,还是写篇博客吧。

    目前有两个版本的 mmseg4j,1.7 版比较耗内存(一个词库目录就要 50M 左右),所以在默认jvm内存大小会抛出 OutOfMemoryErroy。我这里示例两个词库目录,所以不用目前最新版 1.7.2。而用 1.6.2 版。下载:mmseg4j-1.6.2词库,或就下载一个源码包(包括了词库,从源码构建请看:中文分词 mmseg4j 1.7.2 版发布),把 mmseg4j-all-1.6.2.jar 放到 solr.home/lib 。

    mmseg4j 在 solr 中主要支持两个参数:mode、dicPath。mode 表示是什么模式分词(有效值:simplex、complex、max-word,如果输入了无效的默认用 max-word。)。dicPath 是词库目录可以是绝对目录,也可以是相对目录(是相对 solr.home 目录下的,dic 就会在 solr.home/dic 目录下找词库文件),如果不指定就是默认在 CWD/data 目录(程序运行当前目录的data子目录)下找。

    改 solr 配置文件,主要是修改 schema.xml,我添加三个 field type,如下:

    1. <fieldType name="textComplex" class="solr.TextField" positionIncrementGap="100" >  
    2.     <analyzer>  
    3.         <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>  
    4.         <filter class="solr.LowerCaseFilterFactory"/>  
    5.     </analyzer>  
    6. </fieldType>  
    7. <fieldType name="textMaxWord" class="solr.TextField" positionIncrementGap="100" >  
    8.     <analyzer>  
    9.         <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>  
    10.         <filter class="solr.LowerCaseFilterFactory"/>  
    11.     </analyzer>  
    12. </fieldType>  
    13. <fieldType name="textSimple" class="solr.TextField" positionIncrementGap="100" >  
    14.     <analyzer>  
    15.         <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="n:/OpenSource/apache-solr-1.3.0/example/solr/my_dic"/>  
    16.         <filter class="solr.LowerCaseFilterFactory"/>  
    17.     </analyzer>  
    18. </fieldType>  
    <fieldType name="textComplex" class="solr.TextField" positionIncrementGap="100" > 	<analyzer> 		<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/> 		<filter class="solr.LowerCaseFilterFactory"/> 	</analyzer> </fieldType> <fieldType name="textMaxWord" class="solr.TextField" positionIncrementGap="100" > 	<analyzer> 		<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/> 		<filter class="solr.LowerCaseFilterFactory"/> 	</analyzer> </fieldType> <fieldType name="textSimple" class="solr.TextField" positionIncrementGap="100" > 	<analyzer> 		<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="n:/OpenSource/apache-solr-1.3.0/example/solr/my_dic"/> 		<filter class="solr.LowerCaseFilterFactory"/> 	</analyzer> </fieldType> 

    说明:有多少不同的词库目录就会有多少个词库数组结构的实例,由上面的配置,会有两个实例。注意用 1.7.2 版会内存溢出。

    定义几个字段:

    1. <field name="simple" type="textSimple" indexed="true" stored="true"/>  
    2. <field name="complex" type="textComplex" indexed="true" stored="true"/>  
    3. <field name="text" type="textMaxWord" indexed="true" stored="true"/>  
    <field name="simple" type="textSimple" indexed="true" stored="true"/> <field name="complex" type="textComplex" indexed="true" stored="true"/> <field name="text" type="textMaxWord" indexed="true" stored="true"/> 

    再添加个 copyField(最后面加吧):

    1. <copyField source="text" dest="simple" />  
    2. <copyField source="text" dest="complex" />  
    <copyField source="text" dest="simple" /> <copyField source="text" dest="complex" /> 

    现在 mmseg4j 在 solr 中的使用配置好了。接下来安装 solr 到 tomcat。

    solr 1.3 版早就出了,我就用它为示例的 solr。下载:solr-1.3.0,如:解压放到 N:/OpenSource/apache-solr-1.3.0。在 tomcat 中怎么安装 solr 请看: solr install solr tomcat solr on tomcat

    我是用 TOMCAT_HOME/conf/Catalina/localhost/solr.xml 的安装方式,指到 n:/OpenSource/apache-solr-1.3.0/example/solr。tomcat 6 可能没有这个目录,手动创建这目录。

    启动 tomcat 可以看到 mmseg4j 的相关日志,然后在 http://localhost:8080/solr/admin/analysis.jsp 可以看 mmseg4j 的分词效果。在 Field 的下拉菜单选择 name,然后在应用输入 complex。分词的结果,如下图:

    mmseg4j solr analysis 调试,点击放大

    mmseg4j solr analysis 调试,点击放大

    好了,可以运行起来了,那就添加个文档试下,在 n:/OpenSource/apache-solr-1.3.0/example/exampledocs 下创建 mmseg4j-solr-demo-doc.xml 文档:

    1. <add>  
    2.     <doc>  
    3.         <field name="id">1</field>  
    4.         <field name="text">京华时报2009年1月23日报道 昨天,受一股来自中西伯利亚的强冷空气影响,本市出现大风降温天气,白天最高气温只有零下7摄氏度,同时伴有6到7级的偏北风。</field>  
    5.     </doc>  
    6.     <doc>  
    7.         <field name="id">2</field>  
    8.         <field name="text">昨日金正日抵达长春市,进行两天的长春市内电话系统考察。</field>  
    9.     </doc>  
    10.     <doc>  
    11.         <field name="id">3</field>  
    12.         <field name="text">陈教授正在研究生命起源,他的研究生正在打球。</field>  
    13.     </doc>  
    14.     <doc>  
    15.         <field name="id">4</field>  
    16.         <field name="text">中国人民银行是中华人民共和国的中央银行。</field>  
    17.     </doc>  
    18. </add>  
    <add> 	<doc> 		<field name="id">1</field> 		<field name="text">京华时报2009年1月23日报道 昨天,受一股来自中西伯利亚的强冷空气影响,本市出现大风降温天气,白天最高气温只有零下7摄氏度,同时伴有6到7级的偏北风。</field> 	</doc> 	<doc> 		<field name="id">2</field> 		<field name="text">昨日金正日抵达长春市,进行两天的长春市内电话系统考察。</field> 	</doc> 	<doc> 		<field name="id">3</field> 		<field name="text">陈教授正在研究生命起源,他的研究生正在打球。</field> 	</doc> 	<doc> 		<field name="id">4</field> 		<field name="text">中国人民银行是中华人民共和国的中央银行。</field> 	</doc> </add> 

    然后提交到 solr,在 cmd 下运行 post.jar,如下:

    N:"OpenSource"apache-solr-1.3.0"example"exampledocs>java -Durl=http://localhost:8080/solr/update -Dcommit=yes -jar post.jar mmseg4j-solr-demo-doc.xml
    SimplePostTool: version 1.2
    SimplePostTool: WARNING: Make sure your XML documents are encoded in UTF-8, other encodings are not currently supported
    SimplePostTool: POSTing files to http://localhost:8080/solr/update..
    SimplePostTool: POSTing file mmseg4j-solr-demo-doc.xml
    SimplePostTool: COMMITting Solr index changes..

    注意:mmseg4j-solr-demo-doc.xml 要是 UTF-8 格式,不然提交后会乱码。

    看下是否有数据:http://localhost:8080/solr/select/?q=*:*,有数据,应该正常。

    然后,找“西伯利亚”.

    simple:http://localhost:8080/solr/select?indent=on&q=simple:%E8%A5%BF%E4%BC%AF%E5%88%A9%E4%BA%9A&hl=on&hl.fl=simple%2Ccomplex%2Ctext&fl=id,结果如下:

    1. <?xml version="1.0" encoding="UTF-8"?>  
    2. <response>  
    3.   
    4. <lst name="responseHeader">  
    5.  <int name="status">0</int>  
    6.  <int name="QTime">0</int>  
    7.  <lst name="params">  
    8.   <str name="fl">id</str>  
    9.   <str name="indent">on</str>  
    10.   <str name="q">simple:西伯利亚</str>  
    11.   <str name="hl.fl">simple,complex,text</str>  
    12.   <str name="hl">on</str>  
    13.  </lst>  
    14. </lst>  
    15. <result name="response" numFound="0" start="0"/>  
    16. <lst name="highlighting"/>  
    17. </response>  
    <?xml version="1.0" encoding="UTF-8"?> <response>  <lst name="responseHeader">  <int name="status">0</int>  <int name="QTime">0</int>  <lst name="params">   <str name="fl">id</str>   <str name="indent">on</str>   <str name="q">simple:西伯利亚</str>   <str name="hl.fl">simple,complex,text</str>   <str name="hl">on</str>  </lst> </lst> <result name="response" numFound="0" start="0"/> <lst name="highlighting"/> </response> 

    comlex:http://localhost:8080/solr/select?indent=on&q=complex:%E8%A5%BF%E4%BC%AF%E5%88%A9%E4%BA%9A&hl=on&hl.fl=simple%2Ccomplex%2Ctext&fl=id,结果如:

    1. <?xml version="1.0" encoding="UTF-8"?>  
    2. <response>  
    3.   
    4. <lst name="responseHeader">  
    5.  <int name="status">0</int>  
    6.  <int name="QTime">0</int>  
    7.  <lst name="params">  
    8.   <str name="fl">id</str>  
    9.   <str name="indent">on</str>  
    10.   <str name="q">complex:西伯利亚</str>  
    11.   <str name="hl.fl">simple,complex,text</str>  
    12.   <str name="hl">on</str>  
    13.  </lst>  
    14. </lst>  
    15. <result name="response" numFound="1" start="0">  
    16.  <doc>  
    17.   <str name="id">1</str>  
    18.  </doc>  
    19. </result>  
    20. <lst name="highlighting">  
    21.  <lst name="1">  
    22.   <arr name="complex">  
    23.     <str>京华时报2009年1月23日报道 昨天,受一股来自中<em>西伯利亚</em>的强冷空气影响,本市出现大风降温天气,白天最高气温只有零下7摄氏度,同时伴有6到7级的偏北风。</str>  
    24.   </arr>  
    25.  </lst>  
    26. </lst>  
    27. </response>  
    <?xml version="1.0" encoding="UTF-8"?> <response>  <lst name="responseHeader">  <int name="status">0</int>  <int name="QTime">0</int>  <lst name="params">   <str name="fl">id</str>   <str name="indent">on</str>   <str name="q">complex:西伯利亚</str>   <str name="hl.fl">simple,complex,text</str>   <str name="hl">on</str>  </lst> </lst> <result name="response" numFound="1" start="0">  <doc>   <str name="id">1</str>  </doc> </result> <lst name="highlighting">  <lst name="1">   <arr name="complex"> 	<str>京华时报2009年1月23日报道 昨天,受一股来自中<em>西伯利亚</em>的强冷空气影响,本市出现大风降温天气,白天最高气温只有零下7摄氏度,同时伴有6到7级的偏北风。</str>   </arr>  </lst> </lst> </response> 

    text(其实是 max-word):http://localhost:8080/solr/select?indent=on&q=text:%E8%A5%BF%E4%BC%AF%E5%88%A9%E4%BA%9A&hl=on&hl.fl=simple%2Ccomplex%2Ctext&fl=id,结果:

    1. <?xml version="1.0" encoding="UTF-8"?>  
    2. <response>  
    3.   
    4. <lst name="responseHeader">  
    5.  <int name="status">0</int>  
    6.  <int name="QTime">15</int>  
    7.  <lst name="params">  
    8.   <str name="fl">id</str>  
    9.   <str name="indent">on</str>  
    10.   <str name="q">text:西伯利亚</str>  
    11.   <str name="hl.fl">simple,complex,text</str>  
    12.   <str name="hl">on</str>  
    13.  </lst>  
    14. </lst>  
    15. <result name="response" numFound="1" start="0">  
    16.  <doc>  
    17.   <str name="id">1</str>  
    18.  </doc>  
    19. </result>  
    20. <lst name="highlighting">  
    21.  <lst name="1">  
    22.   <arr name="text">  
    23.     <str>京华时报2009年1月23日报道 昨天,受一股来自中<em>西</em><em>伯利亚</em>的强冷空气影响,本市出现大风降温天气,白天最高气温只有零下7摄氏度,同时伴有6到7级的偏北风。</str>  
    24.   </arr>  
    25.  </lst>  
    26. </lst>  
    27. </response> 

    转载于:https://www.cnblogs.com/wycg1984/archive/2009/09/16/1567560.html

    展开全文
  • mmseg4j 词库

    2013-10-08 17:05:02
    mmseg4j 1.9.0 版本中包含的词库文件,之后的版本中没有再包含词库文件了。现在官网也不再提供1.9.0版本的下载
  • solr配置mmseg4j

    2019-05-08 17:57:32
    在把solr安装后,把数据迁移过来启动时报了如图所示的错 Error loading class ‘com.chenlb.mmseg4j.solr.MMSegTokenizerFactory’ Please check your logs for more ...下载mmseg4j,需要翻墙才能下载 https://cod...
    1. 在把solr安装后,把数据迁移过来启动时报了如图所示的错
      Error loading class ‘com.chenlb.mmseg4j.solr.MMSegTokenizerFactory’
      Please check your logs for more information
      在这里插入图片描述
    2. .检查发现是新的solr服务器没有配置mmseg4j
    3. 下载mmseg4j,需要翻墙才能下载
      https://code.google.com/archive/p/mmseg4j/downloads
    4. 解压,把dist目录下的jar包上传拷贝到solr安装目录的dist目录下
      在这里插入图片描述
      在这里插入图片描述
    5. 重启solr服务器,报错解决
    展开全文
  • mmseg4j分词器jar包

    2017-08-25 22:41:47
    欢迎下载mmseg4j分词器jar包
  • mmseg4j 2.3 jar包

    2015-10-13 20:43:03
    mmseg4j 2.3 jar包 lucene中文分词器
  • mmseg4j-1.8.5

    2013-08-12 16:19:01
    lucene中文分词 mmseg4j-1.8.5与lucene3.1兼容

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 660
精华内容 264
关键字:

mmseg4j