-
mysql 中文分词 查找_中文分词技术
2021-02-07 14:07:33# MySQL中文分词全文索引大体分为两个过程:* 索引创建(indexer):将现实世界中所有的结构化数据和非结构化数据提取信息,创建索引的过程* 搜索索引(search):就是得到用户的查询请求,搜索创建的索引,然后返回结果...# MySQL中文分词
全文索引大体分为两个过程:
* 索引创建(indexer):将现实世界中所有的结构化数据和非结构化数据提取信息,创建索引的过程
* 搜索索引(search):就是得到用户的查询请求,搜索创建的索引,然后返回结果的过程
## 编译安装 sphinx+mmsg
### 0. 安装编译依赖工具包
```
yum install make gcc gcc-c++ libtool autoconf automake imake mysql-devel libxml2-devel expat-devel
```
### 下载稳定版源码包并解压
```
[root@localhost.localdomain /usr/local/src]
# wget http://www.coreseek.cn/uploads/csft/3.2/coreseek-3.2.14.tar.gz
[root@localhost.localdomain /usr/local/src]
# tar xf coreseek-3.2.14.tar.gz
[root@localhost.localdomain /usr/local/src]
# cd coreseek-3.2.14
[root@localhost.localdomain /usr/local/src/coreseek-3.2.14]
# ls
csft-3.2.14(sphinx) mmseg-3.2.14 README.txt testpack
其中-- csft-4.1是修改适应了中文环境后的sphinx
Mmseg 是中文分词插件
Testpack是测试用的软件包
```
### [安装 mmseg](http://www.coreseek.cn/products/products-install/install_on_bsd_linux/)
#### cd mmseg
```
[root@localhost.localdomain /usr/local/src/coreseek-3.2.14]
# cd mmseg-3.2.14/
```
#### 执行bootstrap脚本
```
[root@localhost.localdomain /usr/local/src/coreseek-3.2.14/mmseg-3.2.14]
# ./bootstrap
```
#### ./configure --prefix=/usr/local/mmseg
```
[root@localhost.localdomain /usr/local/src/coreseek-3.2.14/mmseg-3.2.14]
# ./configure --prefix=/usr/local/mmseg
```
#### make && make install
```
[root@localhost.localdomain /usr/local/src/coreseek-3.2.14/mmseg-3.2.14]
# make && make install
```
### 安装coreseek
```
[root@localhost.localdomain /usr/local/src/coreseek-3.2.14/csft-3.2.14]
# ./buildconf.sh
[root@localhost.localdomain /usr/local/src/coreseek-3.2.14/csft-3.2.14]
# ./configure --prefix=/usr/local/coreseek --without-unixodbc --with-mmseg --with-mmseg-includes=/usr/local/mmseg/include/mmseg/ --with-mmseg-libs=/usr/local/mmseg/lib/ --with-mysql
[root@localhost.localdomain /usr/local/src/coreseek-3.2.14/csft-3.2.14]
# make && make install
```
## Sphinx的使用
> 1. 数据源---要让sphinx知道,查哪些数据,即针对哪些数据做索引(可以定义多个源)
> 2. 索引配置---针对哪个源做索引, 索引文件放在哪个目录?? 等等
> 3. 搜索服务器---sphinx可以在某个端口(默认9312),以其自身的协议,与外部程序做交互.
**配置数据源**
```
[root@localhost.localdomain /usr/local/coreseek/etc]
# cp sphinx.conf.dist sphinx.conf
[root@localhost.localdomain /usr/local/coreseek/etc]
# vim sphinx.conf
```
如下配置:
source src1 {
type = mysql
sql_host = localhost
sql_user = root
sql_pass = aaaaaa
sql_db = test
sql_query_pre = set names utf8
sql_query_pre = set session query_cache_type=off
sql_query = `select a_id as id,cat_id,title,simtitle,seotitle,tags,source,description,content,dateline,editdateline from article`
sql_attr_uint = a_id
sql_attr_uint = cat_id
sql_attr_timestamp = dateline
sql_attr_timestamp = editdateline
sql_query_info = `SELECT * FROM article WHERE a_id=$id`
}
**索引典型配置**
> index test1 {
> source = test
> path = /usr/local/sphinx/var/data/test1 # 生成索引放在哪
> # stopwords = G:\data\stopwords.txt
> # wordforms = G:\data\wordforms.txt
> # exceptions = /data/exceptions.txt
> charset_dictpath = /usr/local/mmseg/etc/
> charset_type = zh_cn.utf-8
> }
**生成索引文件**
```
[root@localhost.localdomain /usr/local/coreseek/etc]
# /usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/sphinx.conf test1 (test1为索引名称)
Coreseek Fulltext 3.2 [ Sphinx 0.9.9-release (r2117)]
Copyright (c) 2007-2011,
Beijing Choice Software Technologies Inc (http://www.coreseek.com)
using config file '/usr/local/coreseek/etc/sphinx.conf'...
indexing index 'test1'...
collected 8122 docs, 47.6 MB
sorted 8.7 Mhits, 100.0% done
total 8122 docs, 47596333 bytes
total 17.782 sec, 2676636 bytes/sec, 456.75 docs/sec
total 5 reads, 0.011 sec, 4559.8 kb/call avg, 2.3 msec/call avg
total 58 writes, 0.429 sec, 903.8 kb/call avg, 7.3 msec/call avg
```
> **Error 注意:**
> /usr/local/coreseek/bin/indexer: error while loading shared libraries: **libmysqlclient.so.18**: cannot open shared object file: No such file or directory
> 发现**sphinx**的`indexer`依赖库`ibmysqlclient.so.18`找不到,通过编辑此文件来修复这个错误 `/etc/ld.so.conf`
> `vi /etc/ld.so.conf `
> 将下面这句加到文件到尾部,并保存文件
> `/usr/local/mysql/lib `
> 然后运行下面这个命令即可
> `ldconfig`
在命令行测试查询
````
[root@localhost.localdomain /usr/local/coreseek]
# ./bin/search -c etc/sphinx.conf 留学
```
-
php 分词技术,PHP中文分词的简单实现代码分享
2021-03-23 13:57:54我使用的分词工具是中科院计算所的开源版本的 ICTCLAS。 另外还有开源的 Bamboo, 我随后也会对该工具进行调研。从 ICTCLAS 出发是个不错的选择, 因为其算法传播比较广泛, 有公开的学术文档, 并且编译简单, 库...当然, 本文不是要对中文搜索引擎做研究, 而是分享如果用 PHP 做一个站内搜索引擎。 本文是这个系统中的一篇。
我使用的分词工具是中科院计算所的开源版本的 ICTCLAS。 另外还有开源的 Bamboo, 我随后也会对该工具进行调研。
从 ICTCLAS 出发是个不错的选择, 因为其算法传播比较广泛, 有公开的学术文档, 并且编译简单, 库依赖少。 但目前只提供了 C/C++, Java 和 C# 版本的代码, 并没有 PHP 版本的代码。 怎么办呢? 也许可以学习它的 C/C++ 源码和学术文档中, 然后再开发一个 PHP 版本出来。 不过, 我要使用进程间通信, 在 PHP 代码里调用 C/C++ 版本的可执行文件。
下载源码解压后, 在有 C++ 开发库和编译环境的机器上直接 make ictclas 即可。 它的 Makefile 脚本有个错误, 执行测试的代码没有加上'。/', 当然不能像 Windows 下执行成功了。 但也不影响编译结果。
进行中文分词的 PHP 类就在下面了, 用 proc_open() 函数来执行分词程序, 并通过管道和其交互, 输入要进行分词的文本, 读取分词结果。
class NLP{
private static $cmd_path;
// 不以'/'结尾
static function set_cmd_path($path){
self::$cmd_path = $path;
}
private function cmd($str){
$descriptorspec = array(
0 => array("pipe", "r"),
1 => array("pipe", "w"),
);
$cmd = self::$cmd_path . "/ictclas";
$process = proc_open($cmd, $descriptorspec, $pipes);
if (is_resource($process)) {
$str = iconv('utf-8', 'gbk', $str);
fwrite($pipes[0], $str);
$output = stream_get_contents($pipes[1]);
fclose($pipes[0]);
fclose($pipes[1]);
$return_value = proc_close($process);
}
/*
$cmd = "printf '$input' | " . self::$cmd_path . "/ictclas";
exec($cmd, $output, $ret);
$output = join("\n", $output);
*/
$output = trim($output);
$output = iconv('gbk', 'utf-8', $output);
return $output;
}
/**
* 进行分词, 返回词语列表.
*/
function tokenize($str){
$tokens = array();
$output = self::cmd($input);
if($output){
$ps = preg_split('/\s+/', $output);
foreach($ps as $p){
list($seg, $tag) = explode('/', $p);
$item = array(
'seg' => $seg,
'tag' => $tag,
);
$tokens[] = $item;
}
}
return $tokens;
}
}
NLP::set_cmd_path(dirname(__FILE__));
?>
使用起来很简单(确保 ICTCLAS 编译后的可执行文件和词典在当前目录):
require_once('NLP.php');
var_dump(NLP::tokenize('Hello, World!'));
?>
-
小叮咚 中文分词 发布 java 版本 , c# 版本 , c++ 版本
2005-05-27 06:39:00最近关于中文分词的处理逐渐多了起来,我以前的文章也零星的介绍过许多这方面的技术。总有一些朋友来信索要中文分词的代码,而且要不同版本的,鉴于这个情况,我把我对分词的理解,按照java,C#语言各自实现了一份。...小叮咚 中文分词 发布 java 版本 , c# 版本 , c++ 版本
最近关于中文分词的处理逐渐多了起来,我以前的文章也零星的介绍过许多这方面的技术。总有一些朋友来信索要中文分词的代码,而且要不同版本的,鉴于这个情况,我把我对分词的理解,按照java,C#语言各自实现了一份。C++的版本,还是用中科院的ICTCLAS 毕竟这个分词程序是很多分词的鼻祖。
大家可以到:小叮咚中文分词主页查看详情。
程序还有很多不完善的地方,功能列表和开发文档现在都不完整,希望有这方面爱好的朋友一起参与进来,完善,提高。
也欢迎大家来信讨论: xiaodingdong@gmail.com
田春峰
相关联接:
<!--StartFragment --> 计算所汉语词法分析系统ICTCLAS 字典格式解析
<!--StartFragment --> 一种面向搜索引擎的中文切分词方法
<!--StartFragment --> 公开小叮咚分词源代码
-
自然语言处理系列十七》中文分词》分词工具实战》Python的Jieba分词
2021-02-04 16:41:02分词工具有Java、Python、C++实现的,这里给大家推荐目前最流行的分词工具。CRF++是采用C++语言编写,但可以用Python来调用。HanLP是用Java编写的,也可以用Python调用。IK分词和mmseg4j分词也是用Java编写,经常注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《分布式机器学习实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】
自然语言处理系列十七
分词工具实战
分词工具有Java、Python、C++实现的,这里给大家推荐目前最流行的分词工具。CRF++是采用C++语言编写,但可以用Python来调用。HanLP是用Java编写的,也可以用Python调用。IK分词和mmseg4j分词也是用Java编写,经常集成在搜索引擎Solr和Elasticsearch里。下面分别进行讲解这几个开源分词包。
Python的Jieba分词
Jieba 是目前最好的 Python 中文分词组件,它主要有以下 3 种特性:
支持 3 种分词模式:精确模式、全模式、搜索引擎模式
支持繁体分词
支持自定义词典
【代码6.14】 PrefixSpanJob.scala# 导入 jieba import jieba import jieba.posseg as pseg #词性标注 import jieba.analyse as anls #关键词提取
1.分词
可使用 jieba.cut 和 jieba.cut_for_search 方法进行分词,两者所返回的结构都是一个可迭代的 generator,可使用 for 循环来获得分词后得到的每一个词语(unicode),或者直接使用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list。其中:
jieba.cut 和 jieba.lcut 接受 3 个参数:
需要分词的字符串(unicode 或 UTF-8 字符串、GBK 字符串)
cut_all 参数:是否使用全模式,默认值为 False
HMM 参数:用来控制是否使用 HMM 模型,默认值为 True
jieba.cut_for_search 和 jieba.lcut_for_search 接受 2 个参数:
需要分词的字符串(unicode 或 UTF-8 字符串、GBK 字符串)
HMM 参数:用来控制是否使用 HMM 模型,默认值为 True
#尽量不要使用 GBK 字符串,可能无法预料地错误解码成 UTF-8
1)全模式和精确模式# 全模式 seg_list = jieba.cut("他来到上海交通大学", cut_all=True) print("【全模式】:" + "/ ".join(seg_list)) 【全模式】:他/ 来到/ 上海/ 上海交通大学/ 交通/ 大学 # 精确模式 seg_list = jieba.cut("他来到上海交通大学", cut_all=False) print("【精确模式】:" + "/ ".join(seg_list)) 【精确模式】:他/ 来到/ 上海交通大学 type(seg_list) generator # 返回列表 seg_list = jieba.lcut("他来到上海交通大学", cut_all=True) print("【返回列表】:{0}".format(seg_list)) 【返回列表】:['他', '来到', '上海', '上海交通大学', '交通', '大学'] type(seg_list) list
2)搜索引擎模式
# 搜索引擎模式 seg_list = jieba.cut_for_search("他毕业于上海交通大学机电系,后来在一机部上海电器科学研究所工作") print("【搜索引擎模式】:" + "/ ".join(seg_list)) 【搜索引擎模式】:他/ 毕业/ 于/ 上海/ 交通/ 大学/ 上海交通大学/ 机电/ 系/ ,/ 后来/ 在/ 一机部/ 上海/ 电器/ 科学/ 研究/ 研究所/ 工作 # 返回列表 seg_list = jieba.lcut_for_search("他毕业于上海交通大学机电系,后来在一机部上海电器科学研究所工作") print("【返回列表】:{0}".format(seg_list)) 【返回列表】:['他', '毕业', '于', '上海', '交通', '大学', '上海交通大学', '机电', '系', ',', '后来', '在', '一机部', '上海', '电器', '科学', '研究', '研究所', '工作']
2)HMM 模型
HMM 模型,即隐马尔可夫模型(Hidden Markov Model, HMM),是一种基于概率的统计分析模型,用来描述一个系统隐性状态的转移和隐性状态的表现概率。在 jieba 中,对于未登录到词库的词,使用了基于汉字成词能力的 HMM 模型和 Viterbi 算法,其大致原理是:
采用四个隐含状态,分别表示为单字成词,词组的开头,词组的中间,词组的结尾。通过标注好的分词训练集,可以得到 HMM 的各个参数,然后使用 Viterbi 算法来解释测试集,得到分词结果。# 代码实现如下所示: # 未启用 HMM seg_list = jieba.cut("他来到了网易杭研大厦", HMM=False) #默认精确模式和启用 HMM print("【未启用 HMM】:" + "/ ".join(seg_list)) 【未启用 HMM】:他/ 来到/ 了/ 网易/ 杭/ 研/ 大厦 # 识别新词 seg_list = jieba.cut("他来到了网易杭研大厦") #默认精确模式和启用 HMM print("【识别新词】:" + "/ ".join(seg_list)) 【识别新词】:他/ 来到/ 了/ 网易/ 杭研/ 大厦
2.繁体字分词
jieba 还支持对繁体字进行分词。# 繁体字文本 ft_text = """人生易老天難老 歲歲重陽 今又重陽 戰地黃花分外香 壹年壹度秋風勁 不似春光 勝似春光 寥廓江天萬裏霜 """ #全模式 print("【全模式】:" + "/ ".join(jieba.cut(ft_text, cut_all=True))) 【全模式】:人生/ 易/ 老天/ 難/ 老/ / / 歲/ 歲/ 重/ 陽/ / / 今/ 又/ 重/ 陽/ / / 戰/ 地/ 黃/ 花/ 分外/ 香/ / / 壹年/ 壹/ 度/ 秋/ 風/ 勁/ / / 不似/ 春光/ / / 勝/ 似/ 春光/ / / 寥廓/ 江天/ 萬/ 裏/ 霜/ / # 精确模式 print("【精确模式】:" + "/ ".join(jieba.cut(ft_text, cut_all=False))) 【精确模式】:人生/ 易/ 老天/ 難老/ / 歲/ 歲/ 重陽/ / 今/ 又/ 重陽/ / 戰地/ 黃/ 花/ 分外/ 香/ / 壹年/ 壹度/ 秋風勁/ / 不/ 似/ 春光/ / 勝似/ 春光/ / 寥廓/ 江天/ 萬/ 裏/ 霜/ # 搜索引擎模式 print("【搜索引擎模式】:" + "/ ".join(jieba.cut_for_search(ft_text))) 【搜索引擎模式】:人生/ 易/ 老天/ 難老/ / 歲/ 歲/ 重陽/ / 今/ 又/ 重陽/ / 戰地/ 黃/ 花/ 分外/ 香/ / 壹年/ 壹度/ 秋風勁/ / 不/ 似/ 春光/ / 勝似/ 春光/ / 寥廓/ 江天/ 萬/ 裏/ 霜/
3.添加自定义词典
开发者可以指定自定义词典,以便包含 jieba 词库里没有的词,词典格式如下:
词语 词频(可省略) 词性(可省略)
例如:创新办 3 i 云计算 5 凱特琳 nz # 虽然 jieba 有新词识别能力,但自行添加新词可以保证更高的正确率。
1)载入词典
使用 jieba.load_userdict(file_name) 即可载入词典。# file_name 为文件类对象或自定义词典的路径 # 示例文本 sample_text = "周大福是创新办主任也是云计算方面的专家" # 未加载词典 print("【未加载词典】:" + '/ '.join(jieba.cut(sample_text))) 【未加载词典】:周大福/ 是/ 创新/ 办/ 主任/ 也/ 是/ 云/ 计算/ 方面/ 的/ 专家 # 载入词典 jieba.load_userdict("userdict.txt") # 加载词典后 print("【加载词典后】:" + '/ '.join(jieba.cut(sample_text))) 【加载词典后】:周大福/ 是/ 创新办/ 主任/ 也/ 是/ 云计算/ 方面/ 的/ 专家
2)调整词典
使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。jieba.add_word('石墨烯') #增加自定义词语 jieba.add_word('凱特琳', freq=42, tag='nz') #设置词频和词性 jieba.del_word('自定义词') #删除自定义词语
使用 suggest_freq(segment, tune=True) 可调节单个词语的词频,使其能(或不能)被分出来。
# 调节词频前 print("【调节词频前】:" + '/'.join(jieba.cut('如果放到post中将出错。', HMM=False))) 【调节词频前】:如果/放到/post/中将/出错/。 # 调节词频 jieba.suggest_freq(('中', '将'), True) 494 # 调节词频后 print("【调节词频后】:" + '/'.join(jieba.cut('如果放到post中将出错。', HMM=False))) 【调节词频后】:如果/放到/post/中/将/出错/。
Jieba除了有分词功能外,还有词性标注,关键词提取等功能,我们在后面的章节会逐一讲到,接下来的自然语言处理系列十八我们看一下Java的HanLP分词。
总结
此文章有对应的配套视频,其它更多精彩文章请大家下载充电了么app,可获取千万免费好课和文章,配套新书教材请看陈敬雷新书:《分布式机器学习实战》(人工智能科学与技术丛书)
【新书介绍】
《分布式机器学习实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】
新书特色:深入浅出,逐步讲解分布式机器学习的框架及应用配套个性化推荐算法系统、人脸识别、对话机器人等实战项目【新书介绍视频】
分布式机器学习实战(人工智能科学与技术丛书)新书【陈敬雷】
视频特色:重点对新书进行介绍,最新前沿技术热点剖析,技术职业规划建议!听完此课你对人工智能领域将有一个崭新的技术视野!职业发展也将有更加清晰的认识!【精品课程】
《分布式机器学习实战》大数据人工智能AI专家级精品课程【免费体验视频】:
人工智能百万年薪成长路线/从Python到最新热点技术视频特色: 本系列专家级精品课有对应的配套书籍《分布式机器学习实战》,精品课和书籍可以互补式学习,彼此相互补充,大大提高了学习效率。本系列课和书籍是以分布式机器学习为主线,并对其依赖的大数据技术做了详细介绍,之后对目前主流的分布式机器学习框架和算法进行重点讲解,本系列课和书籍侧重实战,最后讲几个工业级的系统实战项目给大家。 课程核心内容有互联网公司大数据和人工智能那些事、大数据算法系统架构、大数据基础、Python编程、Java编程、Scala编程、Docker容器、Mahout分布式机器学习平台、Spark分布式机器学习平台、分布式深度学习框架和神经网络算法、自然语言处理算法、工业级完整系统实战(推荐算法系统实战、人脸识别实战、对话机器人实战)、就业/面试技巧/职业生涯规划/职业晋升指导等内容。
【充电了么公司介绍】
充电了么App是专注上班族职业培训充电学习的在线教育平台。
专注工作职业技能提升和学习,提高工作效率,带来经济效益!今天你充电了么?
充电了么官网
http://www.chongdianleme.com/充电了么App官网下载地址
https://a.app.qq.com/o/simple.jsp?pkgname=com.charged.app功能特色如下:
【全行业职位】 - 专注职场上班族职业技能提升
覆盖所有行业和职位,不管你是上班族,高管,还是创业都有你要学习的视频和文章。其中大数据智能AI、区块链、深度学习是互联网一线工业级的实战经验。
除了专业技能学习,还有通用职场技能,比如企业管理、股权激励和设计、职业生涯规划、社交礼仪、沟通技巧、演讲技巧、开会技巧、发邮件技巧、工作压力如何放松、人脉关系等等,全方位提高你的专业水平和整体素质。
【牛人课堂】 - 学习牛人的工作经验
1.智能个性化引擎:
海量视频课程,覆盖所有行业、所有职位,通过不同行业职位的技能词偏好挖掘分析,智能匹配你目前职位最感兴趣的技能学习课程。
2.听课全网搜索
输入关键词搜索海量视频课程,应有尽有,总有适合你的课程。
3.听课播放详情
视频播放详情,除了播放当前视频,更有相关视频课程和文章阅读,对某个技能知识点强化,让你轻松成为某个领域的资深专家。
【精品阅读】 - 技能文章兴趣阅读
1.个性化阅读引擎:
千万级文章阅读,覆盖所有行业、所有职位,通过不同行业职位的技能词偏好挖掘分析,智能匹配你目前职位最感兴趣的技能学习文章。
2.阅读全网搜索
输入关键词搜索海量文章阅读,应有尽有,总有你感兴趣的技能学习文章。
【机器人老师】 - 个人提升趣味学习
基于搜索引擎和智能深度学习训练,为您打造更懂你的机器人老师,用自然语言和机器人老师聊天学习,寓教于乐,高效学习,快乐人生。
【精短课程】 - 高效学习知识
海量精短牛人课程,满足你的时间碎片化学习,快速提高某个技能知识点。
上一篇:自然语言处理系列十六》中文分词》分词工具实战》CRF++工具包实战
下一篇:自然语言处理系列十八》中文分词》分词工具实战》Java的HanLP分词 -
自然语言处理系列十八》中文分词》分词工具实战》Java的HanLP分词
2021-02-04 16:59:57分词工具有Java、Python、C++实现的,这里给大家推荐目前最流行的分词工具。CRF++是采用C++语言编写,但可以用Python来调用。HanLP是用Java编写的,也可以用Python调用。IK分词和mmseg4j分词也是用Java编写,经常... -
C# 中文分词之初探
2011-07-27 16:18:00中文分词技术说起来一定不陌生,大家初步接触时在网上查阅到最多的应该就是由中科院率先研究的ICTCLAS中文自动分词系统及其相关的源代码,不管是C#还是C++的或是VB的,想必都可以下载到。先不管是否可以看懂里面的源... -
自然语言处理系列十九》中文分词》分词工具实战》Java的IK分词
2021-02-05 19:55:10分词工具有Java、Python、C++实现的,这里给大家推荐目前最流行的分词工具。CRF++是采用C++语言编写,但可以用Python来调用。HanLP是用Java编写的,也可以用Python调用。IK分词和mmseg4j分词也是用Java编写,经常... -
自然语言处理系列二十》中文分词》分词工具实战》Java的mmseg4j分词
2021-02-05 19:58:57分词工具有Java、Python、C++实现的,这里给大家推荐目前最流行的分词工具。CRF++是采用C++语言编写,但可以用Python来调用。HanLP是用Java编写的,也可以用Python调用。IK分词和mmseg4j分词也是用Java编写,经常 -
jcseg中文分词器 1.9.2 解压密码1234
2018-02-25 16:47:16jcseg 是使用 Java 开发的一款开源的中文分词器, 使用 mmseg 算法. 分词准确率高达 98.4%, 支持中文人名识别, 同义词匹配, 停止词过滤... Jcseg 详细功能介绍: (可以略过, 方便查看新版本功能变化) 1。目前最高版本... -
自然语言处理系列十六》中文分词》分词工具实战》CRF++工具包实战
2021-02-04 16:27:54分词工具有Java、Python、C++实现的,这里给大家推荐目前最流行的分词工具。CRF++是采用C++语言编写,但可以用Python来调用。HanLP是用Java编写的,也可以用Python调用。IK分词和mmseg4j分词也是用Java编写,经常... -
海量的中文分词组件使用
2013-07-15 11:37:56海量的中文分词组件(HLSSplit.dll),是用C++写的.在java下调用,就要用JNI技术. 前段时间做了一个.希望和大家分享一下.关于JNI技术,网上有很多的介绍,还不太了解的朋友,可以去网上看看,很简单,看看就明白. 首先在写... -
java 分词搜索功能_给全文搜索引擎Manticore (Sphinx) search 增加中文分词
2021-03-13 20:48:44文章首发于我的技术博客:你可以在上面看到更多的Python教程和python爬虫教程Sphinx search 是一款非常棒的开源全文搜索引擎,它使用C++开发,索引和搜索的速度非常快,我使用sphinx的时间也有好多年了。最初使用的... -
使用 LTP的Python包——pyltp 进行中文分词
2018-07-09 17:58:00哈工大语言技术平台LTP(Language Technology Platform)提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。LTP本身是基于C++开发的,不过官方也提供了... -
split java 中文_海量的中文分词组件(HLSSplit.dll).在java下调用 | 学步园
2021-03-06 21:32:34海量的中文分词组件(HLSSplit.dll),是用C++写的.在java下调用,就要用JNI技术.前段时间做了一个.希望和大家分享一下.关于JNI技术,网上有很多的介绍,还不太了解的朋友,可以去网上看看,很简单,看看就明白.首先在写一个... -
《自然语言处理实战入门》第三章 :中文分词原理及相关组件简介---- 汉语分词领域主要分词算法、组件、服务...
2020-01-25 01:07:22依托海量检索数据,并且搜索引擎本身就是NLP 最终的结果产出,所以在NLP领域,百度无论是语料库丰富程度,技术先进性,以及服务多样性等都是遥遥领先其他厂家,基本上可以算作是中文NLP服务提供商的业界最佳实践。... -
中文全文检索技术研究.pdf
2018-03-16 02:11:42中文全文检索技术研究 中文分词技术 中文检索 C++ 倒排 -
海量的中文分词组件(HLSSplit.dll).在java下调用
2006-10-24 15:27:00海量的中文分词组件(HLSSplit.dll),是用C++写的.在java下调用,就要用JNI技术.前段时间做了一个.希望和大家分享一下.关于JNI技术,网上有很多的介绍,还不太了解的朋友,可以去网上看看,很简单,看看就明白. 首先在写一... -
-
ICTCLAS2016 linux C++版本 使用教程 Eclipse下开发C/C++程序之头文件,库文件引用
2016-05-15 10:48:49欢迎使用NLPIR/ICTCLAS2014分词系统 NLPIR分词系统前身为2000年发布的...张华平博士先后倾力打造十余年,内核升级十余次,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名 -
“结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module. Scroll down for English ...
-
Visual C++2010开发权威指南(共三部分).part1.rar
2011-11-12 23:37:275.6.4 Rich Edit控件中的分词 216 5.6.5 Rich Edit控件中的剪贴板操作 216 5.6.6 Rich Edit控件中的流操作 216 5.6.7 Rich Edit控件中的打印操作 216 5.6.8 无底的Rich Edit控件 217 5.6.9 来自Rich Edit控件的通知 ... -
Visual C++2010开发权威指南(共三部分).part3.rar
2011-11-13 00:09:535.6.4 Rich Edit控件中的分词 216 5.6.5 Rich Edit控件中的剪贴板操作 216 5.6.6 Rich Edit控件中的流操作 216 5.6.7 Rich Edit控件中的打印操作 216 5.6.8 无底的Rich Edit控件 217 5.6.9 来自Rich Edit控件的通知 ... -
Visual C++2010开发权威指南(共三部分).part2.rar
2011-11-12 23:55:135.6.4 Rich Edit控件中的分词 216 5.6.5 Rich Edit控件中的剪贴板操作 216 5.6.6 Rich Edit控件中的流操作 216 5.6.7 Rich Edit控件中的打印操作 216 5.6.8 无底的Rich Edit控件 217 5.6.9 来自Rich Edit控件的通知 ... -
的split用法_哈工大语言技术平台LTP的用法
2020-12-23 02:32:02简介:哈工大的语言技术平台 (LTP)提供了中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。用法:官方提供了Java、C++、python、C#、Ruby接口,这篇使用方法... -
java调用哈工大ltp_哈工大语言技术平台LTP的用法
2021-02-28 17:57:41简介:哈工大的语言技术平台 (LTP)提供了中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。用法:官方提供了Java、C++、python、C#、Ruby接口,这篇使用方法是... -
哈工大语言技术平台LTP的用法
2018-12-11 18:44:45简介:哈工大的语言技术平台 (LTP)提供了中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。 用法:官方提供了Java、C++、python、C#、Ruby接口,这篇使用...