精华内容
下载资源
问答
  • # MySQL中文分词全文索引大体分为两个过程:* 索引创建(indexer):将现实世界中所有的结构化数据和非结构化数据提取信息,创建索引的过程* 搜索索引(search):就是得到用户的查询请求,搜索创建的索引,然后返回结果...

    # MySQL中文分词

    全文索引大体分为两个过程:

    * 索引创建(indexer):将现实世界中所有的结构化数据和非结构化数据提取信息,创建索引的过程

    * 搜索索引(search):就是得到用户的查询请求,搜索创建的索引,然后返回结果的过程

    ## 编译安装 sphinx+mmsg

    ### 0. 安装编译依赖工具包

    ```

    yum install make gcc gcc-c++ libtool autoconf automake imake mysql-devel libxml2-devel expat-devel

    ```

    ### 下载稳定版源码包并解压

    ```

    [root@localhost.localdomain /usr/local/src]

    # wget http://www.coreseek.cn/uploads/csft/3.2/coreseek-3.2.14.tar.gz

    [root@localhost.localdomain /usr/local/src]

    # tar xf coreseek-3.2.14.tar.gz

    [root@localhost.localdomain /usr/local/src]

    # cd coreseek-3.2.14

    [root@localhost.localdomain /usr/local/src/coreseek-3.2.14]

    # ls

    csft-3.2.14(sphinx) mmseg-3.2.14 README.txt testpack

    其中-- csft-4.1是修改适应了中文环境后的sphinx

    Mmseg 是中文分词插件

    Testpack是测试用的软件包

    ```

    ### [安装 mmseg](http://www.coreseek.cn/products/products-install/install_on_bsd_linux/)

    #### cd mmseg

    ```

    [root@localhost.localdomain /usr/local/src/coreseek-3.2.14]

    # cd mmseg-3.2.14/

    ```

    #### 执行bootstrap脚本

    ```

    [root@localhost.localdomain /usr/local/src/coreseek-3.2.14/mmseg-3.2.14]

    # ./bootstrap

    ```

    #### ./configure --prefix=/usr/local/mmseg

    ```

    [root@localhost.localdomain /usr/local/src/coreseek-3.2.14/mmseg-3.2.14]

    # ./configure --prefix=/usr/local/mmseg

    ```

    #### make && make install

    ```

    [root@localhost.localdomain /usr/local/src/coreseek-3.2.14/mmseg-3.2.14]

    # make && make install

    ```

    ### 安装coreseek

    ```

    [root@localhost.localdomain /usr/local/src/coreseek-3.2.14/csft-3.2.14]

    # ./buildconf.sh

    [root@localhost.localdomain /usr/local/src/coreseek-3.2.14/csft-3.2.14]

    # ./configure --prefix=/usr/local/coreseek --without-unixodbc --with-mmseg --with-mmseg-includes=/usr/local/mmseg/include/mmseg/ --with-mmseg-libs=/usr/local/mmseg/lib/ --with-mysql

    [root@localhost.localdomain /usr/local/src/coreseek-3.2.14/csft-3.2.14]

    # make && make install

    ```

    ## Sphinx的使用

    > 1. 数据源---要让sphinx知道,查哪些数据,即针对哪些数据做索引(可以定义多个源)

    > 2. 索引配置---针对哪个源做索引, 索引文件放在哪个目录?? 等等

    > 3. 搜索服务器---sphinx可以在某个端口(默认9312),以其自身的协议,与外部程序做交互.

    **配置数据源**

    ```

    [root@localhost.localdomain /usr/local/coreseek/etc]

    # cp sphinx.conf.dist sphinx.conf

    [root@localhost.localdomain /usr/local/coreseek/etc]

    # vim sphinx.conf

    ```

    如下配置:

    source src1 {

    type = mysql

    sql_host = localhost

    sql_user = root

    sql_pass = aaaaaa

    sql_db = test

    sql_query_pre = set names utf8

    sql_query_pre = set session query_cache_type=off

    sql_query = `select a_id as id,cat_id,title,simtitle,seotitle,tags,source,description,content,dateline,editdateline from article`

    sql_attr_uint = a_id

    sql_attr_uint = cat_id

    sql_attr_timestamp = dateline

    sql_attr_timestamp = editdateline

    sql_query_info = `SELECT * FROM article WHERE a_id=$id`

    }

    **索引典型配置**

    > index test1 {

    > source = test

    > path = /usr/local/sphinx/var/data/test1 # 生成索引放在哪

    > # stopwords = G:\data\stopwords.txt

    > # wordforms = G:\data\wordforms.txt

    > # exceptions = /data/exceptions.txt

    > charset_dictpath = /usr/local/mmseg/etc/

    > charset_type = zh_cn.utf-8

    > }

    **生成索引文件**

    ```

    [root@localhost.localdomain /usr/local/coreseek/etc]

    # /usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/sphinx.conf test1 (test1为索引名称)

    Coreseek Fulltext 3.2 [ Sphinx 0.9.9-release (r2117)]

    Copyright (c) 2007-2011,

    Beijing Choice Software Technologies Inc (http://www.coreseek.com)

    using config file '/usr/local/coreseek/etc/sphinx.conf'...

    indexing index 'test1'...

    collected 8122 docs, 47.6 MB

    sorted 8.7 Mhits, 100.0% done

    total 8122 docs, 47596333 bytes

    total 17.782 sec, 2676636 bytes/sec, 456.75 docs/sec

    total 5 reads, 0.011 sec, 4559.8 kb/call avg, 2.3 msec/call avg

    total 58 writes, 0.429 sec, 903.8 kb/call avg, 7.3 msec/call avg

    ```

    > **Error 注意:**

    > /usr/local/coreseek/bin/indexer: error while loading shared libraries: **libmysqlclient.so.18**: cannot open shared object file: No such file or directory

    > 发现**sphinx**的`indexer`依赖库`ibmysqlclient.so.18`找不到,通过编辑此文件来修复这个错误 `/etc/ld.so.conf`

    > `vi /etc/ld.so.conf `

    > 将下面这句加到文件到尾部,并保存文件

    > `/usr/local/mysql/lib `

    > 然后运行下面这个命令即可

    > `ldconfig`

    在命令行测试查询

    ````

    [root@localhost.localdomain /usr/local/coreseek]

    # ./bin/search -c etc/sphinx.conf 留学

    ```

    展开全文
  • 我使用的分词工具是中科院计算所的开源版本的 ICTCLAS。 另外还有开源的 Bamboo, 我随后也会对该工具进行调研。从 ICTCLAS 出发是个不错的选择, 因为其算法传播比较广泛, 有公开的学术文档, 并且编译简单, 库...

    当然, 本文不是要对中文搜索引擎做研究, 而是分享如果用 PHP 做一个站内搜索引擎。 本文是这个系统中的一篇。

    我使用的分词工具是中科院计算所的开源版本的 ICTCLAS。 另外还有开源的 Bamboo, 我随后也会对该工具进行调研。

    从 ICTCLAS 出发是个不错的选择, 因为其算法传播比较广泛, 有公开的学术文档, 并且编译简单, 库依赖少。 但目前只提供了 C/C++, Java 和 C# 版本的代码, 并没有 PHP 版本的代码。 怎么办呢? 也许可以学习它的 C/C++ 源码和学术文档中, 然后再开发一个 PHP 版本出来。 不过, 我要使用进程间通信, 在 PHP 代码里调用 C/C++ 版本的可执行文件。

    下载源码解压后, 在有 C++ 开发库和编译环境的机器上直接 make ictclas 即可。 它的 Makefile 脚本有个错误, 执行测试的代码没有加上'。/', 当然不能像 Windows 下执行成功了。 但也不影响编译结果。

    进行中文分词的 PHP 类就在下面了, 用 proc_open() 函数来执行分词程序, 并通过管道和其交互, 输入要进行分词的文本, 读取分词结果。

    class NLP{

    private static $cmd_path;

    // 不以'/'结尾

    static function set_cmd_path($path){

    self::$cmd_path = $path;

    }

    private function cmd($str){

    $descriptorspec = array(

    0 => array("pipe", "r"),

    1 => array("pipe", "w"),

    );

    $cmd = self::$cmd_path . "/ictclas";

    $process = proc_open($cmd, $descriptorspec, $pipes);

    if (is_resource($process)) {

    $str = iconv('utf-8', 'gbk', $str);

    fwrite($pipes[0], $str);

    $output = stream_get_contents($pipes[1]);

    fclose($pipes[0]);

    fclose($pipes[1]);

    $return_value = proc_close($process);

    }

    /*

    $cmd = "printf '$input' | " . self::$cmd_path . "/ictclas";

    exec($cmd, $output, $ret);

    $output = join("\n", $output);

    */

    $output = trim($output);

    $output = iconv('gbk', 'utf-8', $output);

    return $output;

    }

    /**

    * 进行分词, 返回词语列表.

    */

    function tokenize($str){

    $tokens = array();

    $output = self::cmd($input);

    if($output){

    $ps = preg_split('/\s+/', $output);

    foreach($ps as $p){

    list($seg, $tag) = explode('/', $p);

    $item = array(

    'seg' => $seg,

    'tag' => $tag,

    );

    $tokens[] = $item;

    }

    }

    return $tokens;

    }

    }

    NLP::set_cmd_path(dirname(__FILE__));

    ?>

    使用起来很简单(确保 ICTCLAS 编译后的可执行文件和词典在当前目录):

    require_once('NLP.php');

    var_dump(NLP::tokenize('Hello, World!'));

    ?>

    展开全文
  • 最近关于中文分词的处理逐渐多了起来,我以前的文章也零星的介绍过许多这方面的技术。总有一些朋友来信索要中文分词的代码,而且要不同版本的,鉴于这个情况,我把我对分词的理解,按照java,C#语言各自实现了一份。...

    小叮咚 中文分词 发布 java 版本 , c# 版本 , c++ 版本

    最近关于中文分词的处理逐渐多了起来,我以前的文章也零星的介绍过许多这方面的技术。总有一些朋友来信索要中文分词的代码,而且要不同版本的,鉴于这个情况,我把我对分词的理解,按照java,C#语言各自实现了一份。C++的版本,还是用中科院的ICTCLAS 毕竟这个分词程序是很多分词的鼻祖。

    大家可以到:小叮咚中文分词主页查看详情。

    程序还有很多不完善的地方,功能列表和开发文档现在都不完整,希望有这方面爱好的朋友一起参与进来,完善,提高。

    也欢迎大家来信讨论: xiaodingdong@gmail.com

    田春峰

    相关联接:

    小叮咚分词主页

    <!--StartFragment --> 计算所汉语词法分析系统ICTCLAS 字典格式解析

    <!--StartFragment --> 一种面向搜索引擎的中文切分词方法

    <!--StartFragment --> 公开小叮咚分词源代码

    展开全文
  • 分词工具有Java、Python、C++实现的,这里给大家推荐目前最流行的分词工具。CRF++是采用C++语言编写,但可以用Python来调用。HanLP是用Java编写的,也可以用Python调用。IK分词和mmseg4j分词也是用Java编写,经常

    注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《分布式机器学习实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】

    自然语言处理系列十七

    分词工具实战

    分词工具有Java、Python、C++实现的,这里给大家推荐目前最流行的分词工具。CRF++是采用C++语言编写,但可以用Python来调用。HanLP是用Java编写的,也可以用Python调用。IK分词和mmseg4j分词也是用Java编写,经常集成在搜索引擎Solr和Elasticsearch里。下面分别进行讲解这几个开源分词包。

    Python的Jieba分词

    Jieba 是目前最好的 Python 中文分词组件,它主要有以下 3 种特性:

    支持 3 种分词模式:精确模式、全模式、搜索引擎模式
    支持繁体分词
    支持自定义词典
    【代码6.14】 PrefixSpanJob.scala

    # 导入 jieba
    import jieba
    import jieba.posseg as pseg #词性标注
    import jieba.analyse as anls #关键词提取
    

    1.分词
      可使用 jieba.cut 和 jieba.cut_for_search 方法进行分词,两者所返回的结构都是一个可迭代的 generator,可使用 for 循环来获得分词后得到的每一个词语(unicode),或者直接使用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list。其中:
    jieba.cut 和 jieba.lcut 接受 3 个参数:
    需要分词的字符串(unicode 或 UTF-8 字符串、GBK 字符串)
    cut_all 参数:是否使用全模式,默认值为 False
    HMM 参数:用来控制是否使用 HMM 模型,默认值为 True
    jieba.cut_for_search 和 jieba.lcut_for_search 接受 2 个参数:
    需要分词的字符串(unicode 或 UTF-8 字符串、GBK 字符串)
    HMM 参数:用来控制是否使用 HMM 模型,默认值为 True
    #尽量不要使用 GBK 字符串,可能无法预料地错误解码成 UTF-8
    1)全模式和精确模式

    # 全模式
    seg_list = jieba.cut("他来到上海交通大学", cut_all=True)
    print("【全模式】:" + "/ ".join(seg_list))  
    【全模式】:他/ 来到/ 上海/ 上海交通大学/ 交通/ 大学
    # 精确模式
    seg_list = jieba.cut("他来到上海交通大学", cut_all=False)
    print("【精确模式】:" + "/ ".join(seg_list))  
    【精确模式】:他/ 来到/ 上海交通大学
    type(seg_list)
    generator
    
    # 返回列表
    seg_list = jieba.lcut("他来到上海交通大学", cut_all=True)
    print("【返回列表】:{0}".format(seg_list))
    【返回列表】:['他', '来到', '上海', '上海交通大学', '交通', '大学']
    
    type(seg_list)
    list
    

    2)搜索引擎模式

    # 搜索引擎模式
    seg_list = jieba.cut_for_search("他毕业于上海交通大学机电系,后来在一机部上海电器科学研究所工作")  
    print("【搜索引擎模式】:" + "/ ".join(seg_list))
    【搜索引擎模式】:他/ 毕业// 上海/ 交通/ 大学/ 上海交通大学/ 机电/// 后来// 一机部/ 上海/ 电器/ 科学/ 研究/ 研究所/ 工作
    
    # 返回列表
    seg_list = jieba.lcut_for_search("他毕业于上海交通大学机电系,后来在一机部上海电器科学研究所工作")  
    print("【返回列表】:{0}".format(seg_list))
    【返回列表】:['他', '毕业', '于', '上海', '交通', '大学', '上海交通大学', '机电', '系', ',', '后来', '在', '一机部', '上海', '电器', '科学', '研究', '研究所', '工作']
    

    2)HMM 模型
      HMM 模型,即隐马尔可夫模型(Hidden Markov Model, HMM),是一种基于概率的统计分析模型,用来描述一个系统隐性状态的转移和隐性状态的表现概率。在 jieba 中,对于未登录到词库的词,使用了基于汉字成词能力的 HMM 模型和 Viterbi 算法,其大致原理是:
    采用四个隐含状态,分别表示为单字成词,词组的开头,词组的中间,词组的结尾。通过标注好的分词训练集,可以得到 HMM 的各个参数,然后使用 Viterbi 算法来解释测试集,得到分词结果。

    # 代码实现如下所示:
    # 未启用 HMM
    seg_list = jieba.cut("他来到了网易杭研大厦", HMM=False) #默认精确模式和启用 HMM
    print("【未启用 HMM】:" + "/ ".join(seg_list))  
    【未启用 HMM】:他/ 来到// 网易/// 大厦
    # 识别新词
    seg_list = jieba.cut("他来到了网易杭研大厦") #默认精确模式和启用 HMM
    print("【识别新词】:" + "/ ".join(seg_list))  
    【识别新词】:他/ 来到// 网易/ 杭研/ 大厦
    

    2.繁体字分词
      jieba 还支持对繁体字进行分词。

    # 繁体字文本
    ft_text = """人生易老天難老 歲歲重陽 今又重陽 戰地黃花分外香 壹年壹度秋風勁 不似春光 勝似春光 寥廓江天萬裏霜 """
    #全模式
    print("【全模式】:" + "/ ".join(jieba.cut(ft_text, cut_all=True)))  
    【全模式】:人生// 老天/// / ///// / ///// / ///// 分外// / / 壹年////// / / 不似/ 春光/ / /// 春光/ / / 寥廓/ 江天//// /
    # 精确模式
    print("【精确模式】:" + "/ ".join(jieba.cut(ft_text, cut_all=False)))  
    【精确模式】:人生// 老天/ 難老/ /// 重陽/ /// 重陽/ / 戰地/// 分外// / 壹年/ 壹度/ 秋風勁/ /// 春光/ / 勝似/ 春光/ / 寥廓/ 江天////
    # 搜索引擎模式
    print("【搜索引擎模式】:" + "/ ".join(jieba.cut_for_search(ft_text)))  
    【搜索引擎模式】:人生// 老天/ 難老/ /// 重陽/ /// 重陽/ / 戰地/// 分外// / 壹年/ 壹度/ 秋風勁/ /// 春光/ / 勝似/ 春光/ / 寥廓/ 江天////
    

    3.添加自定义词典
      开发者可以指定自定义词典,以便包含 jieba 词库里没有的词,词典格式如下:
    词语 词频(可省略) 词性(可省略)
      例如:

    创新办 3 i
    云计算 5
    凱特琳 nz
    # 虽然 jieba 有新词识别能力,但自行添加新词可以保证更高的正确率。
    

    1)载入词典
      使用 jieba.load_userdict(file_name) 即可载入词典。

    # file_name 为文件类对象或自定义词典的路径
    # 示例文本
    sample_text = "周大福是创新办主任也是云计算方面的专家"
    # 未加载词典
    print("【未加载词典】:" + '/ '.join(jieba.cut(sample_text)))
    【未加载词典】:周大福// 创新// 主任//// 计算/ 方面// 专家
    # 载入词典
    jieba.load_userdict("userdict.txt")
    # 加载词典后
    print("【加载词典后】:" + '/ '.join(jieba.cut(sample_text)))
    【加载词典后】:周大福// 创新办/ 主任/// 云计算/ 方面// 专家
    

    2)调整词典
      使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。

    jieba.add_word('石墨烯') #增加自定义词语
    jieba.add_word('凱特琳', freq=42, tag='nz') #设置词频和词性 
    jieba.del_word('自定义词') #删除自定义词语 
    

    使用 suggest_freq(segment, tune=True) 可调节单个词语的词频,使其能(或不能)被分出来。

    # 调节词频前
    print("【调节词频前】:" + '/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))
    【调节词频前】:如果/放到/post/中将/出错/# 调节词频
    jieba.suggest_freq(('中', '将'), True)
    494
    # 调节词频后
    print("【调节词频后】:" + '/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))
    【调节词频后】:如果/放到/post///出错/

    Jieba除了有分词功能外,还有词性标注,关键词提取等功能,我们在后面的章节会逐一讲到,接下来的自然语言处理系列十八我们看一下Java的HanLP分词。

    总结

    此文章有对应的配套视频,其它更多精彩文章请大家下载充电了么app,可获取千万免费好课和文章,配套新书教材请看陈敬雷新书:《分布式机器学习实战》(人工智能科学与技术丛书)

    【新书介绍】
    《分布式机器学习实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】
    新书特色:深入浅出,逐步讲解分布式机器学习的框架及应用配套个性化推荐算法系统、人脸识别、对话机器人等实战项目

    【新书介绍视频】
    分布式机器学习实战(人工智能科学与技术丛书)新书【陈敬雷】
    视频特色:重点对新书进行介绍,最新前沿技术热点剖析,技术职业规划建议!听完此课你对人工智能领域将有一个崭新的技术视野!职业发展也将有更加清晰的认识!

    【精品课程】
    《分布式机器学习实战》大数据人工智能AI专家级精品课程

    【免费体验视频】:
    人工智能百万年薪成长路线/从Python到最新热点技术

    从Python编程零基础小白入门到人工智能高级实战系列课

    视频特色: 本系列专家级精品课有对应的配套书籍《分布式机器学习实战》,精品课和书籍可以互补式学习,彼此相互补充,大大提高了学习效率。本系列课和书籍是以分布式机器学习为主线,并对其依赖的大数据技术做了详细介绍,之后对目前主流的分布式机器学习框架和算法进行重点讲解,本系列课和书籍侧重实战,最后讲几个工业级的系统实战项目给大家。 课程核心内容有互联网公司大数据和人工智能那些事、大数据算法系统架构、大数据基础、Python编程、Java编程、Scala编程、Docker容器、Mahout分布式机器学习平台、Spark分布式机器学习平台、分布式深度学习框架和神经网络算法、自然语言处理算法、工业级完整系统实战(推荐算法系统实战、人脸识别实战、对话机器人实战)、就业/面试技巧/职业生涯规划/职业晋升指导等内容。

    【充电了么公司介绍】

    充电了么App是专注上班族职业培训充电学习的在线教育平台。

    专注工作职业技能提升和学习,提高工作效率,带来经济效益!今天你充电了么?

    充电了么官网
    http://www.chongdianleme.com/

    充电了么App官网下载地址
    https://a.app.qq.com/o/simple.jsp?pkgname=com.charged.app

    功能特色如下:

    【全行业职位】 - 专注职场上班族职业技能提升

    覆盖所有行业和职位,不管你是上班族,高管,还是创业都有你要学习的视频和文章。其中大数据智能AI、区块链、深度学习是互联网一线工业级的实战经验。

    除了专业技能学习,还有通用职场技能,比如企业管理、股权激励和设计、职业生涯规划、社交礼仪、沟通技巧、演讲技巧、开会技巧、发邮件技巧、工作压力如何放松、人脉关系等等,全方位提高你的专业水平和整体素质。

    【牛人课堂】 - 学习牛人的工作经验

    1.智能个性化引擎:

    海量视频课程,覆盖所有行业、所有职位,通过不同行业职位的技能词偏好挖掘分析,智能匹配你目前职位最感兴趣的技能学习课程。

    2.听课全网搜索

    输入关键词搜索海量视频课程,应有尽有,总有适合你的课程。

    3.听课播放详情

    视频播放详情,除了播放当前视频,更有相关视频课程和文章阅读,对某个技能知识点强化,让你轻松成为某个领域的资深专家。

    【精品阅读】 - 技能文章兴趣阅读

    1.个性化阅读引擎:

    千万级文章阅读,覆盖所有行业、所有职位,通过不同行业职位的技能词偏好挖掘分析,智能匹配你目前职位最感兴趣的技能学习文章。

    2.阅读全网搜索

    输入关键词搜索海量文章阅读,应有尽有,总有你感兴趣的技能学习文章。

    【机器人老师】 - 个人提升趣味学习

    基于搜索引擎和智能深度学习训练,为您打造更懂你的机器人老师,用自然语言和机器人老师聊天学习,寓教于乐,高效学习,快乐人生。

    【精短课程】 - 高效学习知识

    海量精短牛人课程,满足你的时间碎片化学习,快速提高某个技能知识点。

    上一篇:自然语言处理系列十六》中文分词》分词工具实战》CRF++工具包实战
    下一篇:自然语言处理系列十八》中文分词》分词工具实战》Java的HanLP分词

    展开全文
  • 分词工具有Java、Python、C++实现的,这里给大家推荐目前最流行的分词工具。CRF++是采用C++语言编写,但可以用Python来调用。HanLP是用Java编写的,也可以用Python调用。IK分词和mmseg4j分词也是用Java编写,经常...
  • C# 中文分词之初探

    2011-07-27 16:18:00
    中文分词技术说起来一定不陌生,大家初步接触时在网上查阅到最多的应该就是由中科院率先研究的ICTCLAS中文自动分词系统及其相关的源代码,不管是C#还是C++的或是VB的,想必都可以下载到。先不管是否可以看懂里面的源...
  • 分词工具有Java、Python、C++实现的,这里给大家推荐目前最流行的分词工具。CRF++是采用C++语言编写,但可以用Python来调用。HanLP是用Java编写的,也可以用Python调用。IK分词和mmseg4j分词也是用Java编写,经常...
  • 分词工具有Java、Python、C++实现的,这里给大家推荐目前最流行的分词工具。CRF++是采用C++语言编写,但可以用Python来调用。HanLP是用Java编写的,也可以用Python调用。IK分词和mmseg4j分词也是用Java编写,经常
  • jcseg 是使用 Java 开发的一款开源的中文分词器, 使用 mmseg 算法. 分词准确率高达 98.4%, 支持中文人名识别, 同义词匹配, 停止词过滤... Jcseg 详细功能介绍: (可以略过, 方便查看新版本功能变化) 1。目前最高版本...
  • 分词工具有Java、Python、C++实现的,这里给大家推荐目前最流行的分词工具。CRF++是采用C++语言编写,但可以用Python来调用。HanLP是用Java编写的,也可以用Python调用。IK分词和mmseg4j分词也是用Java编写,经常...
  • 海量的中文分词组件(HLSSplit.dll),是用C++写的.在java下调用,就要用JNI技术. 前段时间做了一个.希望和大家分享一下.关于JNI技术,网上有很多的介绍,还不太了解的朋友,可以去网上看看,很简单,看看就明白. 首先在写...
  • 文章首发于我的技术博客:你可以在上面看到更多的Python教程和python爬虫教程Sphinx search 是一款非常棒的开源全文搜索引擎,它使用C++开发,索引和搜索的速度非常快,我使用sphinx的时间也有好多年了。最初使用的...
  • 哈工大语言技术平台LTP(Language Technology Platform)提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。LTP本身是基于C++开发的,不过官方也提供了...
  • 海量的中文分词组件(HLSSplit.dll),是用C++写的.在java下调用,就要用JNI技术.前段时间做了一个.希望和大家分享一下.关于JNI技术,网上有很多的介绍,还不太了解的朋友,可以去网上看看,很简单,看看就明白.首先在写一个...
  • 依托海量检索数据,并且搜索引擎本身就是NLP 最终的结果产出,所以在NLP领域,百度无论是语料库丰富程度,技术先进性,以及服务多样性等都是遥遥领先其他厂家,基本上可以算作是中文NLP服务提供商的业界最佳实践。...
  • 中文全文检索技术研究 中文分词技术 中文检索 C++ 倒排
  • 海量的中文分词组件(HLSSplit.dll),是用C++写的.在java下调用,就要用JNI技术.前段时间做了一个.希望和大家分享一下.关于JNI技术,网上有很多的介绍,还不太了解的朋友,可以去网上看看,很简单,看看就明白. 首先在写一...
  • 欢迎使用NLPIR/ICTCLAS2014分词系统 NLPIR分词系统前身为2000年发布的...张华平博士先后倾力打造十余年,内核升级十余次,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名
  • “结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module. Scroll down for English ...
  • 5.6.4 Rich Edit控件中的分词 216 5.6.5 Rich Edit控件中的剪贴板操作 216 5.6.6 Rich Edit控件中的流操作 216 5.6.7 Rich Edit控件中的打印操作 216 5.6.8 无底的Rich Edit控件 217 5.6.9 来自Rich Edit控件的通知 ...
  • 5.6.4 Rich Edit控件中的分词 216 5.6.5 Rich Edit控件中的剪贴板操作 216 5.6.6 Rich Edit控件中的流操作 216 5.6.7 Rich Edit控件中的打印操作 216 5.6.8 无底的Rich Edit控件 217 5.6.9 来自Rich Edit控件的通知 ...
  • 5.6.4 Rich Edit控件中的分词 216 5.6.5 Rich Edit控件中的剪贴板操作 216 5.6.6 Rich Edit控件中的流操作 216 5.6.7 Rich Edit控件中的打印操作 216 5.6.8 无底的Rich Edit控件 217 5.6.9 来自Rich Edit控件的通知 ...
  • 简介:哈工大的语言技术平台 (LTP)提供了中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。用法:官方提供了Java、C++、python、C#、Ruby接口,这篇使用方法...
  • 简介:哈工大的语言技术平台 (LTP)提供了中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。用法:官方提供了Java、C++、python、C#、Ruby接口,这篇使用方法是...
  • 哈工大语言技术平台LTP的用法

    千次阅读 2018-12-11 18:44:45
    简介:哈工大的语言技术平台 (LTP)提供了中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。 用法:官方提供了Java、C++、python、C#、Ruby接口,这篇使用...

空空如也

空空如也

1 2 3 4
收藏数 63
精华内容 25
关键字:

c++中文分词技术

c++ 订阅