精华内容
下载资源
问答
  • 中文分词软件

    2012-05-19 22:45:59
    包含分词、词性分析、句法分析功能的小软件
  • LJCorpus中文语料库分析软件是一套专门针对中文生语料库的加工、抽取、统计与翻译全自动的综合语料分析系统,应用了领先的汉语词法分析技术、新词发现技术、统计挖掘技术以及词语翻译对齐技术,目前,东北师范大学...
  • THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点: 能力强。利用我们集成的...

    软件简介

    THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点:

    1. 能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。

    2. 准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。

    3. 速度较快。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度可达到1.3MB/s。

     

    软件地址:

    http://thulac.thunlp.org/

     

    python版本使用示例:

    通过python程序import thulac,新建thulac.thulac(args)类,其中args为程序的参数。之后可以通过调用thulac.cut()进行单句分词。

     1 """
     2     测试使用
     3 """
     4 import thulac
     5 
     6 
     7 def thulac_use():
     8     """
     9     用于分词和词性标注
    10     :return:
    11     """
    12     content = '南京市长江大桥'
    13     th = thulac.thulac()
    14     res = th.cut(content, text=True)
    15 
    16     print(res)
    17 
    18 
    19 if __name__ == '__main__':
    20     thulac_use()

    结果:

    南京市_ns 长江_ns 大桥_n

    转载于:https://www.cnblogs.com/demo-deng/p/9882141.html

    展开全文
  • 中文分词

    2020-04-29 14:01:15
    中文分词 BOSONNPL 基于规则的分词方法是...中文分词软件 通过anaconda下载 可以用utf-8,或gbk 如何添加词语 从逻辑上来讲,根据标签来选择和过滤,如果选择词性和特定次的词语 这个原因是我用的中文输入法输...

    中文分词

    在这里插入图片描述
    BOSONNPL

    在这里插入图片描述
    基于规则的分词方法是指基于人工标注的词性和统计特征对中文语料进行训练,得到对每个字的类别标注,根据标注结果

    在这里插入图片描述
    停用词:
    歧义词
    未登录词:

    NLPIR的python封装-pynlpir
    中文分词软件
    在这里插入图片描述
    通过anaconda下载

    可以用utf-8,或gbk
    在这里插入图片描述
    如何添加词语
    从逻辑上来讲,根据标签来选择和过滤,如果选择词性和特定次的词语
    在这里插入图片描述
    在这里插入图片描述
    这个原因是我用的中文输入法输入的:

    在这里插入图片描述
    在这里插入图片描述

    展开全文
  • nlp_windows_exe_ui 介绍 ...分词:使用jieba中文分词(去中断词,精确模式); 词性标注:使用jieba库里的posseg包进行词性标注; 关键词:基于lda模型结合tfidf的最合适的前六个词; 文本分类:给
  • 软件简介在线演示编译和安装使用方式与代表性分词软件的性能对比词性标记集THULAC的不同配置获取链接注意事项历史开源协议相关论文作者常见问题致谢 软件简介 THULAC(THU Lexical Analyzer for Chinese)由清华...

    THULAC:一个高效的中文词法分析工具包

    目录

    软件简介

    THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点:

    1. 能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。

    2. 准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。

    3. 速度较快。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度可达到1.3MB/s。

    在线演示

    THULAC在线演示平台thulac.thunlp.org/demo

    编译和安装

    • C++版

        在当前路径下运行
        make
        会在当前目录下得到thulac和train_c
        (thulac需要模型的支持,需要将下载的模型放到当前目录下)
      
    • java版

        可直接按照分词程序命令格式运行可执行的jar包
        自行编译需要安装Gradle, 然后在项目根目录执行gradle build, 生成文件在build/libs下
      (thulac需要模型的支持,需要将下载的模型放到当前目录下)
      
    • python版(兼容python2.x和python3.x)

      1. 源代码下载

        将thulac文件放到目录下,通过 import thulac 来引用
        thulac需要模型的支持,需要将下载的模型放到thulac目录下。
      2. pip下载

        sudo pip install thulac
        通过 import thulac 来引用

    使用方式

    1.分词和词性标注程序

    1.1.命令格式

    • C++版(接口调用参见1.5)

      • ./thulac [-t2s] [-seg_only] [-deli delimeter] [-user userword.txt] 从命令行输入输出
      • ./thulac [-t2s] [-seg_only] [-deli delimeter] [-user userword.txt] outputfile 利用重定向从文本文件输入输出(注意均为UTF8文本)
    • java版

      • java -jar THULAC_lite_java_run.jar [-t2s] [-seg_only] [-deli delimeter] [-user userword.txt] 从命令行输入输出
      • java -jar THULAC_lite_java_run.jar [-t2s] [-seg_only] [-deli delimeter] [-user userword.txt] -input input_file -output output_file 从文本文件输入输出(注意均为UTF8文本)
    • python版(兼容python2.x和python3.x)

      通过python程序import thulac,新建thulac.thulac(args)类,其中args为程序的参数。之后可以通过调用thulac.cut()进行单句分词。

      具体接口参数可查看python版接口参数

      代码示例

      代码示例1
      import thulac   
      
      thu1 = thulac.thulac()  #默认模式
      text = thu1.cut("我爱北京天安门", text=True)  #进行一句话分词
      print(text)
      代码示例2
      thu1 = thulac.thulac(seg_only=True)  #只进行分词,不进行词性标注
      thu1.cut_f("input.txt", "output.txt")  #对input.txt文件内容进行分词,输出到output.txt

    1.2.通用参数(C++版、Java版)

    -t2s                将句子从繁体转化为简体
    -seg_only           只进行分词,不进行词性标注
    -deli delimeter     设置词与词性间的分隔符,默认为下划线_
    -filter             使用过滤器去除一些没有意义的词语,例如“可以”。
    -user userword.txt  设置用户词典,用户词典中的词会被打上uw标签。词典中每一个词一行,UTF8编码(python版暂无)
    -model_dir dir      设置模型文件所在文件夹,默认为models/
    

    1.3.Java版特有的参数

    -input input_file   设置从文件读入,默认为命令行输入
    -output output_file 设置输出到文件中,默认为命令行输出
    

    1.4.python版接口参数

    • thulac(user_dict=None, model_path=None, T2S=False, seg_only=False, filt=False)初始化程序,进行自定义设置

      user_dict           设置用户词典,用户词典中的词会被打上uw标签。词典中每一个词一行,UTF8编码
      T2S                 默认False, 是否将句子从繁体转化为简体
      seg_only            默认False, 时候只进行分词,不进行词性标注
      filt                默认False, 是否使用过滤器去除一些没有意义的词语,例如“可以”。
      model_path          设置模型文件所在文件夹,默认为models/
    • cut(文本, text=False) 对一句话进行分词

      text                默认为False, 是否返回文本,不返回文本则返回一个二维数组([[word, tag]..]),tag_only模式下tag为空字符。
    • cut_f(输入文件, 输出文件) 对文件进行分词

    • run() 命令行交互式分词(屏幕输入、屏幕输出)

    1.5.C++版接口参数(需include "include/thulac.h")

    • 首先需要实例化THULAC类,然后可以调用以下接口:

      int init(const char* model_path = NULL, const char* user_path = NULL, int just_seg = 0, int t2s = 0, int ufilter = 0, char separator = '_');
      初始化程序,进行自定义设置

        user_path           设置用户词典,用户词典中的词会被打上uw标签。词典中每一个词一行,UTF8编码
        t2s                 默认False, 是否将句子从繁体转化为简体
        just_seg            默认False, 时候只进行分词,不进行词性标注
        ufilter             默认False, 是否使用过滤器去除一些没有意义的词语,例如“可以”。
        model_path          设置模型文件所在文件夹,默认为models/
        separator           默认为‘_’, 设置词与词性之间的分隔符  
      

    1.5.分词和词性标注模型的使用

    THULAC需要分词和词性标注模型的支持,用户可以在下载列表中下载THULAC模型 Models_v1.zip,并放到THULAC的根目录即可,或者使用参数-model_dir dir指定模型的位置。

    2.模型训练程序

    THULAC工具包提供模型训练程序train_c,用户可以使用train_c训练获得THULAC的所需的模型。

    2.1.命令格式

        ./train_c [-s separator] [-b bigram_threshold] [-i iteration] training_filename model_filename   
        使用training_filename为训练集,训练出来的模型名字为model_filename
    

    2.2.参数意义

        -s              设置词与词性间的分隔符,默认为斜线/
        -b              设置二字串的阈值,默认为1
        -i              设置训练迭代的轮数,默认为15
    

    2.3.训练集格式

    我们使用默认的分隔符(斜线/)作为例子,训练集内容应为

        我/r 爱/vm 北京/ns 天安门/ns
    

    类似的已经进行词性标注的句子。

    若要训练出只分词的模型,使用默认的分隔符(斜线/)作为例子,训练集内容应为

        我/ 爱/ 北京/ 天安门/ 
    

    类似的句子。

    2.4.使用训练出的模型

    将训练出来的模型覆盖原来models中的对应模型,之后执行分词程序即可使用训练出来的模型。

    与代表性分词软件的性能对比

    我们选择LTP-3.2.0 ICTCLAS(2015版) jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评(The Second International Chinese Word Segmentation Bakeoff)发布的国际中文分词测评标准,对不同软件进行了速度和准确率测试。

    在第二届国际汉语分词测评中,共有四家单位提供的测试语料(Academia Sinica、 City University 、Peking University 、Microsoft Research), 在评测提供的资源icwb2-data中包含了来自这四家单位的训练集(training)、测试集(testing), 以及根据各自分词标准而提供的相应测试集的标准答案(icwb2-data/scripts/gold).在icwb2-data/scripts目录下含有对分词进行自动评分的perl脚本score。

    我们在统一测试环境下,对上述流行分词软件和THULAC进行了测试,使用的模型为各分词软件自带模型。THULAC使用的是随软件提供的简单模型Model_1。评测环境为 Intel Core i5 2.4 GHz 评测结果如下:

    msr_test(560KB)

    Algorithm Time Precision Recall F-Measure
    LTP-3.2.0 3.21s 0.867 0.896 0.881
    ICTCLAS(2015版) 0.55s 0.869 0.914 0.891
    jieba(C++版) 0.26s 0.814 0.809 0.811
    THULAC_lite 0.62s 0.877 0.899 0.888

    pku_test(510KB)

    Algorithm Time Precision Recall F-Measure
    LTP-3.2.0 3.83s 0.960 0.947 0.953
    ICTCLAS(2015版) 0.53s 0.939 0.944 0.941
    jieba(C++版) 0.23s 0.850 0.784 0.816
    THULAC_lite 0.51s 0.944 0.908 0.926

    除了以上在标准测试集上的评测,我们也对各个分词工具在大数据上的速度进行了评测,结果如下:

    CNKI_journal.txt(51 MB)

    Algorithm Time Speed
    LTP-3.2.0 348.624s 149.80KB/s
    ICTCLAS(2015版) 106.461s 490.59KB/s
    jieba(C++版) 22.558s 2314.89KB/s
    THULAC_lite 42.625s 1221.05KB/s

    词性标记集

    通用标记集(适用于所有版本)

    n/名词 np/人名 ns/地名 ni/机构名 nz/其它专名
    m/数词 q/量词 mq/数量词 t/时间词 f/方位词 s/处所词
    v/动词 a/形容词 d/副词 h/前接成分 k/后接成分 i/习语 
    j/简称 r/代词 c/连词 p/介词 u/助词 y/语气助词
    e/叹词 o/拟声词 g/语素 w/标点 x/其它
    

    特殊标记集(适用于lite_v1_2版)

    为了方便在分词和词性标注后的过滤,在v1_2版本,我们增加了两种词性,如果需要可以下载使用。
    vm/能愿动词 vd/趋向动词

    THULAC的不同配置

    1. 我们随THULAC源代码附带了简单的分词模型Model_1,仅支持分词功能。该模型由人民日报分词语料库训练得到。

    2. 我们随THULAC源代码附带了分词和词性标注联合模型Model_2,支持同时分词和词性标注功能。该模型由人民日报分词和词性标注语料库训练得到。

    3. 我们还提供更复杂、完善和精确的分词和词性标注联合模型Model_3和分词词表。该模型是由多语料联合训练训练得到(语料包括来自多文体的标注文本和人民日报标注文本等)。由于模型较大,如有机构或个人需要,请填写“资源申请表.doc”,并发送至 thunlp@gmail.com ,通过审核后我们会将相关资源发送给联系人。

    获取链接

    THULAC工具包分成两个部分组成。第一部分为算法源代码部分,可以通过网站上下载或者从github获取最新基础版代码,无需注册;第二部分为算法模型部分,THULAC需要分词和词性标注模型的支持,可以从2.算法模型注册后获得。

    算法源代码lite版

    Source Version Description Size Date Download
    THULAC_lite lite版 THULAC_lite分词源代码(C++版) 799KB 2017-04-11 download
    THULAC_lite分词源代码(python版) 44KB 2017-04-11
    THULAC_lite分词源代码(java版) 588KB 2017-01-13
    THULAC_lite分词java版可执行的jar包 55KB 2017-04-11
    THULAC模型,包括分词模型和词性标注模型(lite版) 58.2MB 2016-01-10
    v1_2 THULAC_lite_v1_2分词源代码(C++版) 799KB 2017-04-11 download
    THULAC_lite_v1_2分词源代码(java版) 588KB 2017-01-13
    THULAC_lite_v1_2分词java版可执行的jar包 55KB 2017-04-11
    THULAC模型,包括分词模型和词性标注模型(v1_2) 58.3MB 2016-07-10

    2.算法源代码lite版(github)

    Source Description Link
    THULAC_lite_C++ THULAC_lite分词源代码(C++版) link
    THULAC_lite_Python THULAC_lite分词源代码(python版) link
    THULAC_lite_Java THULAC_lite分词源代码(java版) link
    THULAC_lite.So THULAC_lite分词源代码(So版) link

    3.算法模型

    Source Description Size Date Download
    THULAC_lite_Model THULAC模型,包括分词模型和词性标注模型(lite版) 58.2MB 2016-01-10 download
    THULAC_pro_c++_v1.zip THULAC模型,包括更复杂完善的分词和词性标注模型以及分词词表 162MB 2016-01-10 download

    注意事项

    该工具目前仅处理UTF8编码中文文本,之后会逐渐增加支持其他编码的功能,敬请期待。

    历史

    更新时间 更新内容
    2017-01-17 在pip上发布THULAC分词python版本。
    2016-10-10 增加THULAC分词so版本。
    2016-03-31 增加THULAC分词python版本。
    2016-01-20 增加THULAC分词Java版本。
    2016-01-10 开源THULAC分词工具C++版本。

    开源协议

    1. THULAC面向国内外大学、研究所、企业以及个人用于研究目的免费开放源代码。
    2. 如有机构或个人拟将THULAC用于商业目的,请发邮件至thunlp@gmail.com洽谈技术许可协议。
    3. 欢迎对该工具包提出任何宝贵意见和建议。请发邮件至thunlp@gmail.com。
    4. 如果您在THULAC基础上发表论文或取得科研成果,请您在发表论文和申报成果时声明“使用了清华大学THULAC”,并按如下格式引用:

      • 中文: 孙茂松, 陈新雄, 张开旭, 郭志芃, 刘知远. THULAC:一个高效的中文词法分析工具包. 2016.

      • 英文: Maosong Sun, Xinxiong Chen, Kaixu Zhang, Zhipeng Guo, Zhiyuan Liu. THULAC: An Efficient Lexical Analyzer for Chinese. 2016.

    相关论文

    • Zhongguo Li, Maosong Sun. Punctuation as Implicit Annotations for Chinese Word Segmentation. Computational Linguistics, vol. 35, no. 4, pp. 505-512, 2009.

    作者

    Maosong Sun (孙茂松,导师), Xinxiong Chen(陈新雄,博士生), Kaixu Zhang (张开旭,硕士生), Zhipeng Guo(郭志芃,本科生), Junhua Ma (马骏骅,访问学生), Zhiyuan Liu(刘知远,助理教授).

    常见问题

    1.THULAC工具包提供的模型是如何得到的?

    THULAC工具包随包附带的分词模型Model_1以及分词和词性标注模型Model_2是由人民日报语料库训练得到的。这份语料库中包含已标注的字数约为一千二百万字。

    同时,我们还提供更复杂、完善和精确的分词和词性标注联合模型Model_3和分词词表。该模型是由多语料联合训练训练得到(语料包括来自多文体的标注文本和人民日报标注文本等)。这份语料包含已标注的字数约为五千八百万字。由于模型较大,如有机构或个人需要,请填写“资源申请表.doc”,并发送至 thunlp@gmail.com ,通过审核后我们会将相关资源发送给联系人。

    2.能否提供工具包所带的模型的训练原始语料(如人民日报语料库)?

    THULAC工具包中所带的模型的训练原始语料都是需要授权获得的。如果需要原始分词语料,如人民日报语料库,请联系北京大学计算语言学研究所授权获取。

    致谢

    • 感谢清华大学的本科生潘星宇对THULAC-Python工具的支持和帮助。
    • 感谢付超群带领的看盘宝团队对THULAC.so工具的支持和帮助。

    使用者如有任何问题、建议和意见,欢迎发邮件至 thunlp@gmail.com 。

    版权所有:清华大学自然语言处理与社会人文计算实验室
    Copyright:Natural Language Processing and Computational Social Science Lab, Tsinghua University
    展开全文
  • NLP开源软件

    千次阅读 2014-01-13 10:27:27
    NLP开源软件 一、分词 1、 ICTCLAS http://www.ictclas.org/包含分词、词性标注功能, C++编写,提供Java借口,业界比较出名。 2、 Ansj中文分词 http://www.ansj.org/ 分词 词性等 Jav

    来自http://www.xuebuyuan.com/1321828.html


    NLP开源软件

    一、分词

    1、  ICTCLAS

    http://www.ictclas.org/包含分词、词性标注功能, C++编写,提供Java借口,业界比较出名。

    2、  Ansj中文分词

    http://www.ansj.org/    分词 词性等  Java,为ICTCLAS重新实现版本

     

    以下三个为Lucene提供的中文分词模块

    3、  IKAnalyzer

    http://code.google.com/p/ik-analyzer/  Java编写

    4、  paoding

    http://code.google.com/p/paoding/  Java

    5、  imdict-chinese-analyzer

    http://code.google.com/p/imdict-chinese-analyzer/   Java   HHMM分词模型

    6、  Stanford Word Segmenter

    http://nlp.stanford.edu/software/segmenter.shtml

     

    二、词性标注

    1、  Stanford POS Tagger

     http://nlp.stanford.edu/software/tagger.shtml

    2、  TreeTagger

     http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/

    3、  TnT

    http://www.coli.uni-saarland.de/~thorsten/tnt/

    4、  ICTCLAS支持中文词性标注

     

    三、句法分析

    Stanford Parserhttp://nlp.stanford.edu/software/lex-parser.shtml

    Berkeley Parser http://nlp.cs.berkeley.edu/Main.html#Parsing

    Charniak Parser http://www.cs.brown.edu/~ec/

     

    依存分析

    Stanford Parserhttp://nlp.stanford.edu/software/lex-parser.shtml

    MSTparser http://www.ryanmcd.com/MSTParser/MSTParser.html

    MaltParser  http://www.maltparser.org/

    四、命名实体识别

    Stanford NER  http://nlp.stanford.edu/software/CRF-NER.shtml

    五、语义角色标注

    Illinois Semantic Role Labeler (SRL) http://cogcomp.cs.illinois.edu/page/software_view/SRL

    六、综合应用

    1、  LTP http://ir.hit.edu.cn/ltp/ 

    哈工大语言技术平台,LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等6项中文处理核心技术),以及基于动态链接库(Dynamic Link Library, DLL)的应用程序接口,可视化工具,并且能够以网络服务(Web Service)的形式进行使用。

    包括分词、词性标注、命名实体识别、依存句法分析、语义角色标注等模块,C++编写

    2、  FudanNLP  http://code.google.com/p/fudannlp/ 

    Java编写

    信息检索: 文本分类 新闻聚类

    中文处理: 中文分词 词性标注 实体名识别 关键词抽取 依存句法分析 时间短语识别

    结构化学习: 在线学习 层次分类 聚类 精确推理

    3、  Stanford CoreNLP 

    http://nlp.stanford.edu/software/corenlp.shtml

    包括词性标注、命名实体识别、句法分析和指代消解功能

    4、ClearNLP  https://code.google.com/p/clearnlp/

    This project provides several NLP tools such as a dependency parser,a semantic role labeler, a penn-to-dependency converter, a prop-to-dependencyconverter, and a morphological analyzer.

    All tools are written in Java and developed by the ComputationalLanguage and EducAtion Research (CLEAR) group at the University of Colorado atBoulder.

     

    cleartk    http://code.google.com/p/cleartk/

    展开全文
  • THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点: 能力强。利用我们集成的目前...
  • ansj_seg中文分词实例

    千次阅读 2015-12-17 15:10:00
    Ansj中文分词是一款纯Java的、主要应用于自然语言处理的、高精度的中文分词工具,目标是“准确、高效、自由地进行中文分词”,可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域...
  • Yard中文分词系统

    2009-06-11 18:57:16
    本次发布的版本为0.1版能对中文词组进行完美的切分同时利用词组的词频和词性解决了歧义划分的问题,但是对人名、地名、组织名、英文、数字等还不能进行很好的切分,在下一个版本中将解决这些问题。中文词典应用了...
  • Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点: 能力强。利用我们集成的目前世界上规模最大的人工分词和词性...
  • 第一篇文章主要介绍哈工大pytltp工具,包括安装过程、中文分词、词性标注和实体识别等。 [Python知识图谱] 一.哈工大pyltp安装及中文分句、中文分词、导入词典基本用法 参考链接:...
  • 本次发布的版本为0.1.1版能对中文词组进行完美的切分同时利用词组的词频和词性解决了歧义划分的问题,但是对人名、地名、组织名、英文、数字等还不能进行很好的切分,在下一个版本中将解决这些问题。中文词典应用了...
  • 这是一个中科院中文词法分析器,能对输入的文本进行分词,词性标注,2013基础版的
  • 在查询模块主要任务是保证查询准确高效,而在集句生成部分,主要利用现有的可行手段,例如开源的中文分词工具对于待对偶诗句进行词性分析,在此基础上,给出相对较优的对偶句。最后,对于使用的开源工具运...
  • 国内可用免费语料库 组织,机构发布 国家语委 ...现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果...同时,还提供了分词、词性标注软件、词频统计、字频统计软件
  • 以下文章来源于尘世美小茶馆,作者...NLP相关软件、工具、资源中文nlpir:主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。https://github.com/NLPIR...
  • 切词软件(中科院)

    热门讨论 2007-08-03 19:31:12
    这是一个中科院中文词法分析器,能对输入的文本进行分词,词性标注,未登陆词识别等功能,正确率相当高,很有用哦
  • 自然语言处理NLP开源软件工具包

    千次阅读 2019-06-24 11:49:34
    自然语言处理(NLP) 开源软件工具包 基础研究领域 1、文本分类 2、依存分析 3、命名实体 4、词性标注 5、中文分词 6、情感分析 7、信息抽取 8、文本摘要 一、NLTK NLTLK官方文档地址:http://www.nltk.org/ ...
  • 本文在古诗词的内容上会有简单的描述,然后对于...在查询模块主要任务是保证查询准确高效,而在集句生成部分,主要利用现有的可行手段,例如开源的中文分词工具对于待对偶诗句进行词性分析,在此基础上,给出相对较...
  • 第二,在背字典的同时我们大多把记忆重点放在了单词的拼写上,忽视了单词的中文意思,特别实在单词具有多种词性和多种语义的时候。这造成了我们“会拼写却不知道中文意思”的弊病; 第三,背字典大多是脱离了句子...
  • CRF++的使用 CRF用于中文分词

    千次阅读 2017-07-31 18:21:43
    使用的数据为北京大学人民日报的语料,处理的格式如图所示,格式为“词 词性 可分标志”,其中可分标志分为,B为一个词的开始字,E为一个词的结束字,S为单独的字为一个词,句与句之间隔着一个换行符。 2、 CRF模板...

空空如也

空空如也

1 2 3
收藏数 55
精华内容 22
关键字:

中文词性软件