精华内容
下载资源
问答
  • 批量中文分词脚本

    2011-03-29 20:03:48
    #该perl脚本要求调用deepfuture的简单中文分词器(http://deepfuture.iteye.com/blog/767313)   use 5.010; use warnings; use strict; use File::Basename;     my $mydir='/home/deepfuture/xx...

     

    #!/usr/bin/perl

    #批量分词

    #该perl脚本要求调用deepfuture的简单中文分词器(http://deepfuture.iteye.com/blog/767313)

     

    use 5.010;

    use warnings;

    use strict;

    use File::Basename;

     

     

    my $mydir='/home/deepfuture/xx'; #输入目录

    my $myoutdir='/home/deepfuture/yy';#输出目录

    my @list = glob("$mydir/*\.txt");

    my $jd=1;

    say '批量分词...........';

    foreach my $mylist(@list){

      $jd++;

      my $outfile = basename $mylist;

         $outfile =~ s/\..+$/\.seg/i;

         say '-'x80;

    say "正在处理$mylist,分词结果输出:$myoutdir/$outfile"; 

         say '[='.'='x($jd/scalar(@list)*100).'>'.'.'x(100-$jd/scalar(@list)*100).']';     

     

             system("./zwfc.sh $mylist $myoutdir/$outfile");                 

     

     

         say '';

    }      

    展开全文
  • 1。... 此链接介绍了很多分词资源。注意看其第二项(A Simplified Chinese...里面有Perl和Java版的简体中文分词程序,完全free。我试了一下,效果不错。网上很多人向Lucene中添加中文分词时用的都是中科院ICTCLAS的接口...

    1。http://www.chinesecomputing.com/nlp/segment.html

    此链接介绍了很多分词资源。注意看其第二项(A Simplified Chinese Segmenter written in Perl )。里面有Perl和Java版的简体中文分词程序,完全free。我试了一下,效果不错。网上很多人向Lucene中添加中文分词时用的都是中科院ICTCLAS的接口。而中科院的ICTCLAS本身使用c++开发,所以用JNI给包装起来之后,当分词时就问题百出,非常不稳定。当时我做实验室的一个小DD用的也是这个接口,是北师大陈天封装,分词会经常出问题,当然责任不在陈天。我也专门就如何在Lucene中添加中文分词程序写过一篇文章,介绍如何在Lucene中使用ICTCLAS添加中文分词。后来有很多读者给我发Email探讨这个问题,为什么他们的就有问题。其实我用时也有时会有问题。这里你可以使用我所推荐替代那个免费的而且不好用的用JNI封装的令人抓狂的ICTCLAS。

    但是本人没有对多线程进行测试,只是顺便用了一下。哪位达人试过确实好用,一定不要忘了告诉我。

    2。http://www.fajava.cn/products_01.asp

    推荐您采用第三代智能分词系统3GWS(the 3rd Generation Word Segmenter)。据说是ICTCLAS3.0的商用版本。参见:http://www.fajava.cn/products_01.asp 提供Linux/Windows下的API,可以试用。这是Blog上别人留的言,我没有试过。

    3  中文分词免费版 (Nice thing)


    Trackback: http://tb.donews.net/TrackBack.aspx?PostId=865217

    转载于:https://www.cnblogs.com/aleaf/archive/2009/10/19/1585732.html

    展开全文
  • 1。... 此链接介绍了很多分词资源。注意看其第二项(A Simplified Chinese ...里面有Perl和Java版的简体中文分词程序,完全free。我试了一下,效果不错。网上很多人向Lucene中添加中文分词时用的都是中科院ICTCLAS的...

    1。http://www.chinesecomputing.com/nlp/segment.html

    此链接介绍了很多分词资源。注意看其第二项(A Simplified Chinese Segmenter written in Perl )。里面有Perl和Java版的简体中文分词程序,完全free。我试了一下,效果不错。网上很多人向Lucene中添加中文分词时用的都是中科院ICTCLAS的接口。而中科院的ICTCLAS本身使用c++开发,所以用JNI给包装起来之后,当分词时就问题百出,非常不稳定。当时我做实验室的一个小DD用的也是这个接口,是北师大陈天封装,分词会经常出问题,当然责任不在陈天。我也专门就如何在Lucene中添加中文分词程序写过一篇文章,介绍如何在Lucene中使用ICTCLAS添加中文分词。后来有很多读者给我发Email探讨这个问题,为什么他们的就有问题。其实我用时也有时会有问题。这里你可以使用我所推荐替代那个免费的而且不好用的用JNI封装的令人抓狂的ICTCLAS。

    但是本人没有对多线程进行测试,只是顺便用了一下。哪位达人试过确实好用,一定不要忘了告诉我。

    2。http://www.fajava.cn/products_01.asp

    推荐您采用第三代智能分词系统3GWS(the 3rd Generation Word Segmenter)。据说是ICTCLAS3.0的商用版本。参见:http://www.fajava.cn/products_01.asp 提供Linux/Windows下的API,可以试用。这是Blog上别人留的言,我没有试过。

    3  中文分词免费版 (Nice thing)

    转载于:https://www.cnblogs.com/eastcowboy/archive/2009/08/18/1549327.html

    展开全文
  • 最近有一个文本分析的需求,因分析系统用的是Perl,而Perl下优秀的中文文本分析包又少,所以调用R处理文本数据。为什么不用Python尽管Python拥有完备的NLP开源包支持,但是理由也很简单——因为Python目前接触不多,...

    最近有一个文本分析的需求,因分析系统用的是Perl,而Perl下优秀的中文文本分析包又少,所以调用R处理文本数据。

    为什么不用Python

    尽管Python拥有完备的NLP开源包支持,但是理由也很简单——因为Python目前接触不多,不敢班门弄斧,Python以后再说。目前,也只是需要的是一个快速原型,如果生产数据剧增,后期还需用c++重构下核心算法(顺便提一下,HMM就不重写了,吃力不讨好)。

    如何开始

    1.安装R程序,将R程序安装路径加入环境变量。

    1d1b6a1df4c2534f4dede1c812ab2bdb.png

    2.测试命令行批跑功能

    cmd 输入 Rscript --arch x64 --help查看,x64是我当前安装的版本。

    0e528caad1c168ce5f85989822250051.png

    3.测试调用R程序,输出与Rgui一致,plot时候不会打开绘图窗口,默认以Report.pdf文件形式导出到脚本目录下。

    7af3f5fa079fb41dcd98b499fa745b1b.png

    测试

    1 #!/usr/bin/perl2 # Run R Script By Call R Program3 # Liangwl4 # 2015/9/19 19:43:145 # Todo: Get the value from R runtime.Each parameter should be defind in Perl.

    6 usestrict;7

    8 #Write R scripts here

    9 subRscripts10 {11 my $r =<

    14 Args

    35 EndOfScript36 return $r;37 }38

    39 #Use pipe to Call&Exec R scripts

    40 subcallR41 {42 my ($file,$TX_DATE) = @_;43 my $rc = open(R,"| r --no-save $TX_DATE") or die $!;44 unless ($rc) {45 print "Could not invoke R command\n";46 return -1;47 }48 print R $file;49 return $rc;50 }51

    52 submain53 {54 my ($sec,$min,$hour,$mday,$mon,$year,$wday,$yday,$isdst) = localtime(time());55 my $current = sprintf("%04d-%02d-%02d %02d:%02d:%02d",$year+1900,$mon + 1,$mday,$hour,$min,$sec);56 print "$current\nPID:$$ \n------------------------------------------------------------\n";57

    58 #There‘s two way to execute R script59

    60 # 1.execute R Script in batch61 # The parameter which follow ‘Rscript‘ should be a *.r file62 # The *.r file should be encode with ANSI/ASCII in UNIX/LF mode.

    63 my $path = "C:\\Users\\LiangWenLong\\Desktop\\test.r";64 my $rc_batch = `Rscript $path 123456` or die $!;65 print $rc_batch;66 print "------------------------------------------------------------\n";67

    68 #2.use pipe call R program and execute script

    69 my $TX_DATE = ‘20150920‘;70 my $rc_pipe = callR(Rscripts(),$TX_DATE);71

    72 #return $rc_pipe;

    73 return $rc_batch;74 }75 my $ret =main();76 exit($ret);

    运行结果

    c73e54759589610f0314d49d36d77ae5.png

    应用场景

    分词、词频、文本挖掘、情感分析、语义分析

    原文:http://www.cnblogs.com/liang3p/p/4822940.html

    展开全文
  • 1-gram 中文分词

    千次阅读 2011-11-13 22:54:37
    一个1-gram实现,网上有个类似的python的,由于要交作业,写了个perl的,娱乐而已。 备份一下。无版权,需要自取。 #!/usr/bin/perl -w # Attention please! # This program should only be executed in UNIX-...
  • CRF++进行中文分词安装使用

    千次阅读 2017-01-18 19:29:44
    CRF提供了各种语言的工具包,有java、python、perl等。我用的是python语言工具包,所以还要安装python工具包:python setup.py build ,(sudo) python setup.py install。安装完成后,可以打开python shell
  • Sphinx简介Sphinx是一个基于SQL的全文检索...Sphinx特别为一些脚本语言设计搜索API接口,如PHP,Python,Perl,Ruby等,同时为MySQL也设计了一个存储引擎插件。Sphinx是独立的搜索服务端,不依赖MySQL,当Sphinx和My...
  • 基于php的Sphinx全文搜索,中文分词的使用 1.什么是sphinx Sphinx是一个基于SQL的全文检索引擎,可以结合MySQL,PostgreSQL做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的...
  • 最近有一个文本分析的需求,因分析系统用的是Perl,而Perl下优秀的中文文本分析包又少,所以调用R处理文本数据。 为什么不用Python 尽管Python拥有完备的NLP开源包支持,但是理由也很简单——因为Python目前接触不...
  • # 3、A、中文编码 从文件夹读文件 (问原文标记还是输出歧义句子) # 写文件的时候每次文件名字加一(之前有处理过分文件) # B、提取“ |/w |/w |/w”之前的中文句子进行判断 # C、判断分为几个情况 # * ...
  • mecab 是基于CRF 的一个日文分词系统,代码使用 c++ 实现, 基本上内嵌了 CRF++ 的代码, 同时提供了多种脚本语言调用的接口(python, perl, ruby 等).整个系统的架构采用通用泛化的设计, 用户可以通过配置文件定制...
  • 中文分词是自然语言处理的基础性关键问题,近一年来一直在进行着分词方面的研究。一开始用的是Sighan backoff 提供的用Perl脚本编写的分词打分程序Score。为了把用C++写的分词程序和评测程序无缝的结合在一起,同时...
  • sphinx中文语音训练手册

    热门讨论 2013-04-29 10:41:01
    jieba.rar是一个python下的中文分词模块,主页是https://github.com/fxsjy/jieba 3)打开一个DOS命令行(这个应该都知道吧),运行下面的命令 python D:\sphinxtrain\sphinxtrain-1.0.8-win32\python\cnprepare.py D...
  • 一般在训练 NLP 模型,比如分词,词性,组块标注等等时,采用 BIO 表示法,说明如下: B — 代表当前词是一个组块的开始 I — 代表当前词在一个组块中 O — 代表当前词不在任意组块中 。 如果要求更精确,可以...
  • pos.mecab-ipadic.zip

    2020-04-24 11:20:20
    mecab 是基于CRF 的一个日文分词系统,代码使用 c++ 实现, 基本上内嵌了 CRF++ 的代码, 同时提供了多种脚本语言调用的接口(python, perl, ruby 等).整个系统的架构采用通用泛化的设计, 用户可以通过配置文件定制...
  • THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点: 能力强。利用我们集成的目前...
  • raw.txt是未分词的数据,未经tokenizer.perl处理的数据,处理过程中用jieba进行分词,并进行bpe切分,之后再计算得到zh_embeddings.raw ** 2.用得到的句子向量计算句子相似度 ** zh_embeddings.raw和en_embedd
  • 今天安装中文词检索功能模块 coreseek,其中一个分词模块 mmseg ,编译安装到最后,出现annot find input file: src/Makefile.in aclocal //是一个perl 脚本程序,它的定义是:“aclocal - create aclocal.m4 by...
  • java开源包1

    千次下载 热门讨论 2013-06-28 09:14:34
    Pinyin4j是一个流行的Java库,支持中文字符和拼音之间的转换。拼音输出格式可以定制。 异步HTTP客户端开发包 HttpAsyncClient HttpAsyncClient 是一个异步的 HTTP 客户端开发包,基于 HttpCore NIO 和 HttpClient ...
  • java开源包12

    热门讨论 2013-06-28 10:14:45
    Pinyin4j是一个流行的Java库,支持中文字符和拼音之间的转换。拼音输出格式可以定制。 异步HTTP客户端开发包 HttpAsyncClient HttpAsyncClient 是一个异步的 HTTP 客户端开发包,基于 HttpCore NIO 和 HttpClient ...
  • Java资源包01

    2016-08-31 09:16:25
    Pinyin4j是一个流行的Java库,支持中文字符和拼音之间的转换。拼音输出格式可以定制。 异步HTTP客户端开发包 HttpAsyncClient HttpAsyncClient 是一个异步的 HTTP 客户端开发包,基于 HttpCore NIO 和 HttpClient ...
  • java开源包101

    2016-07-13 10:11:08
    Pinyin4j是一个流行的Java库,支持中文字符和拼音之间的转换。拼音输出格式可以定制。 异步HTTP客户端开发包 HttpAsyncClient HttpAsyncClient 是一个异步的 HTTP 客户端开发包,基于 HttpCore NIO 和 HttpClient ...
  • java开源包11

    热门讨论 2013-06-28 10:10:38
    Pinyin4j是一个流行的Java库,支持中文字符和拼音之间的转换。拼音输出格式可以定制。 异步HTTP客户端开发包 HttpAsyncClient HttpAsyncClient 是一个异步的 HTTP 客户端开发包,基于 HttpCore NIO 和 HttpClient ...
  • java开源包6

    热门讨论 2013-06-28 09:48:32
    Pinyin4j是一个流行的Java库,支持中文字符和拼音之间的转换。拼音输出格式可以定制。 异步HTTP客户端开发包 HttpAsyncClient HttpAsyncClient 是一个异步的 HTTP 客户端开发包,基于 HttpCore NIO 和 HttpClient ...
  • java开源包10

    热门讨论 2013-06-28 10:06:40
    Pinyin4j是一个流行的Java库,支持中文字符和拼音之间的转换。拼音输出格式可以定制。 异步HTTP客户端开发包 HttpAsyncClient HttpAsyncClient 是一个异步的 HTTP 客户端开发包,基于 HttpCore NIO 和 HttpClient ...
  • java开源包8

    热门讨论 2013-06-28 09:55:26
    Pinyin4j是一个流行的Java库,支持中文字符和拼音之间的转换。拼音输出格式可以定制。 异步HTTP客户端开发包 HttpAsyncClient HttpAsyncClient 是一个异步的 HTTP 客户端开发包,基于 HttpCore NIO 和 HttpClient ...

空空如也

空空如也

1 2
收藏数 35
精华内容 14
关键字:

中文分词perl