精华内容
下载资源
问答
  • 本文实例讲述了python实现中文分词FMM算法。分享给大家供大家参考。具体分析如下:FMM算法的最简单思想是使用贪心算法向前找n个,如果这n个组成的词在词典中出现,就ok,如果没有出现,那么找n-1个...然后继续下去。...

    本文实例讲述了python实现中文分词FMM算法。分享给大家供大家参考。具体分析如下:

    FMM算法的最简单思想是使用贪心算法向前找n个,如果这n个组成的词在词典中出现,就ok,如果没有出现,那么找n-1个...然后继续下去。假如n个词在词典中出现,那么从n+1位置继续找下去,直到句子结束。

    import re

    def PreProcess(sentence,edcode="utf-8"):

    sentence = sentence.decode(edcode)

    sentence=re.sub(u"[。,,!……!《》<>\"'::?\?、\|“”‘';]"," ",sentence)

    return sentence

    def FMM(sentence,diction,result = [],maxwordLength = 4,edcode="utf-8"):

    i = 0

    sentence = PreProcess(sentence,edcode)

    length = len(sentence)

    while i < length:

    # find the ascii word

    tempi=i

    tok=sentence[i:i+1]

    while re.search("[0-9A-Za-z\-\+#@_\.]{1}",tok)<>None:

    i= i+1

    tok=sentence[i:i+1]

    if i-tempi>0:

    result.append(sentence[tempi:i].lower().encode(edcode))

    # find chinese word

    left = len(sentence[i:])

    if left == 1:

    """go to 4 step over the FMM"""

    """should we add the last one? Yes, if not blank"""

    if sentence[i:] <> " ":

    result.append(sentence[i:].encode(edcode))

    return result

    m = min(left,maxwordLength)

    for j in xrange(m,0,-1):

    leftword = sentence[i:j+i].encode(edcode)

    # print leftword.decode(edcode)

    if LookUp(leftword,diction):

    # find the left word in dictionary

    # it's the right one

    i = j+i

    result.append(leftword)

    break

    elif j == 1:

    """only one word, add into result, if not blank"""

    if leftword.decode(edcode) <> " ":

    result.append(leftword)

    i = i+1

    else:

    continue

    return result

    def LookUp(word,dictionary):

    if dictionary.has_key(word):

    return True

    return False

    def ConvertGBKtoUTF(sentence):

    return sentence.decode('gbk').encode('utf-8')

    dictions = {}

    dictions["ab"] = 1

    dictions["cd"] = 2

    dictions["abc"] = 1

    dictions["ss"] = 1

    dictions[ConvertGBKtoUTF("好的")] = 1

    dictions[ConvertGBKtoUTF("真的")] = 1

    sentence = "asdfa好的是这样吗vasdiw呀真的daf dasfiw asid是吗?"

    s = FMM(ConvertGBKtoUTF(sentence),dictions)

    for i in s:

    print i.decode("utf-8")

    test = open("test.txt","r")

    for line in test:

    s = FMM(CovertGBKtoUTF(line),dictions)

    for i in s:

    print i.decode("utf-8")

    运行结果如下:

    asdfa

    好的

    vasdiw

    真的

    daf

    dasfiw

    asid

    希望本文所述对大家的Python程序设计有所帮助。

    本文标题: python实现中文分词FMM算法实例

    本文地址: http://www.cppcns.com/jiaoben/python/127911.html

    展开全文
  • 最大匹配算法是自然语言处理中的中文匹配算法中最基础的算法,分为正向和逆向,原理都是一样的。正向最大匹配算法,故名思意,从左向右扫描寻找词的最大匹配。首先我们可以规定一个词的最大长度,每次扫描的时候寻找...

    最大匹配算法是自然语言处理中的中文匹配算法中最基础的算法,分为正向和逆向,原理都是一样的。

    正向最大匹配算法,故名思意,从左向右扫描寻找词的最大匹配。

    首先我们可以规定一个词的最大长度,每次扫描的时候寻找当前开始的这个长度的词来和字典中的词匹配,如果没有找到,就缩短长度继续寻找,直到找到或者成为单字。

    实例:

    S1="计算语言学课程是三个课时" ,设定最大词长MaxLen = 5  ,S2= " "

    字典中含有三个词:[计算语言学]、[课程]、[课时]

    (1)S2="";S1不为空,从S1左边取出候选子串W="计算语言学";

    (2)查词表,“计算语言学”在词表中,将W加入到S2中,S2=“计算语言学/  ”,        并将W从S1中去掉,此时S1="课程是三个课时";

    (3)S1不为空,于是从S1左边取出候选子串W="课程是三个";

    (4)查词表,W不在词表中,将W最右边一个字去掉,得到W="课程是三";

    (5)查词表,W不在词表中,将W最右边一个字去掉,得到W="课程是";

    (6)查词表,W不在词表中,将W最右边一个字去掉,得到W="课程"

    (7)查词表,W在词表中,将W加入到S2中,S2=“计算语言学/  课程/  ”,并        将W从S1中去掉,此时S1="是三个课时";

    (8)S1不为空,于是从S1左边取出候选子串W="是三个课时";

    (9)查词表,W不在词表中,将W最右边一个字去掉,得到W="是三个课";

    (10)查词表,W不在词表中,将W最右边一个字去掉,得到W="是三个";

    (11)查词表,W不在词表中,将W最右边一个字去掉,得到W="是三"

    (12)查词表,W不在词表中,将W最右边一个字去掉,得到W=“是”,这时     W是单字,将W加入到S2中,S2=“计算语言学/  课程/  是/  ”,并将     W从S1中去掉,此时S1="三个课时";

    (13)S1不为空,从S1左边取出候选子串W="三个课时";

    (14)查词表,W不在词表中,将W最右边一个字去掉,得到W="三个课";

    (15)查词表,W不在词表中,将W最右边一个字去掉,得到W="三个";

    (16)查词表,W不在词表中,将W最右边一个字去掉,得到W=“三”,这时     W是单字,将W加入到S2中,S2=“计算语言学/  课程/  是/  三/  ”,并    将W从S1中去掉,此时S1="个课时";

    (17)S1不为空,从S1左边取出候选子串W="个课时";

    (18)查词表,W不在词表中,将W最右边一个字去掉,得到W="个课";

    (19)查词表,W不在词表中,将W最右边一个字去掉,得到W=“个”,     这时W是单字,将W加入到S2中,S2=“计算语言学/  课程/  是/       三/  个/  ",并将W从S1中去掉,此时S1="课时";

    (20)S1不为空,从S1左边取出候选子串W="课时";

    (21)查词表,W在词表中,将W加入到S2中,S2=“计算语言学/  课程/       是/  三/  个/  课时/  ",并将W从S1中去掉,此时S1=""。

    (22)S1为空,输出S2作为分词结果,分词过程结束。

    中文分词算法的Python实现:

    脚本接受两个参数,一个是输入文件的路径,另一个是词典的路径。

    它的运行方法如下:

    python max-match.py

    #!/usr/bin/env python

    import cPickle as pickle

    import sys

    window_size=5

    def max_match_segment(line, dic):

    # write your code here

    chars = line.decode("utf8")

    words = []

    idx = 0

    while idx < len(chars):

    matched = False

    for i in xrange(window_size, 0, -1):

    cand=chars[idx:idx+i].encode("utf8")

    if cand in dic:

    words.append(cand)

    matched = True

    break

    if not matched:

    i = 1

    words.append(chars[idx].encode("utf8"))

    idx += i

    return words

    if __name__=="__main__":

    try:

    fpi=open(sys.argv[1], "r")

    except:

    print >> sys.stderr, "failed to open file"

    sys.exit(1)

    try:

    dic = pickle.load(open(sys.argv[2], "r"))

    except:

    print >> sys.stderr, "failed to load dict %s" % sys.argv[2]

    sys.exit(1)

    try:

    fpo = open("out.txt","w")

    except:

    print >> sys.stderr, "failed to load out.txt"

    sys.exit(1)

    for line in fpi:

    fpo.write("\t".join( max_match_segment(line.strip(), dic) ))

    当然,这只是最基础的,还可以有很多高级的优化,比如说改成Trie树版本的,控制最大词长度的等等。

    在Hadoop上运行基于RMM中文分词算法的MapReduce程序

    原文:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-count-on-hadoop/ 在Hadoop上运行基于RMM中文分词 ...

    Mmseg中文分词算法解析

    Mmseg中文分词算法解析 @author linjiexing 开发中文搜索和中文词库语义自己主动识别的时候,我採用都是基于mmseg中文分词算法开发的Jcseg开源project.使用场景涉及搜索 ...

    分词 &vert; 双向匹配中文分词算法python实现

    本次实验内容是基于词典的双向匹配算法的中文分词算法的实现.使用正向和反向最大匹配算法对给定句子进行分词,对得到的结果进行比较,从而决定正确的分词方法. 算法描述正向最大匹配算法先设定扫描的窗口大小ma ...

    【nlp】中文分词基础原则及正向最大匹配法、逆向最大匹配法、双向最大匹配法的分析

    分词算法设计中的几个基本原则: 1.颗粒度越大越好:用于进行语义分析的文本分词,要求分词结果的颗粒度越大,即单词的字数越多,所能表示的含义越确切,如:“公安局长”可以分为“公安 局长”.“公安局 长” ...

    MMSeg中文分词算法

    Java中有一些开源的分词项目,比如:IK.Paoding.MMSEG4J等等.这里主要说的是MMSEG4J中使用的MMSeg算法.它的原文介绍在:http://technology.chtsai.o ...

    中文分词算法工具hanlp源码解析

    词图 词图指的是句子中所有词可能构成的图.如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B).一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图. 需要稀疏2维 ...

    hanlp源码解析之中文分词算法详解

    词图 词图指的是句子中所有词可能构成的图.如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B).一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图. 需要稀疏2维 ...

    MMSEG 中文分词算法 翻译

    算法原文位于:http://technology.chtsai.org/mmseg/ http://www.360doc.com/content/13/0217/15/11619026_2661428 ...

    算法:二分查找(python版)

    #!/usr/bin/env python #coding -*- utf:8 -*- #二分查找#时间复杂度O(logn)#一个时间常量O(1)将问题的规模缩小一半,则O(logn) import ...

    随机推荐

    Unity3D设计原则

    原则1:单一职责 原则2:里氏替换原则(子类扩展但不改变父类功能) 原则3:依赖倒置原则 原则4:接口隔离原则 原则5:迪米特法则(最少知道原则) 原则6:开闭原则 原则1:单一职责原则 说到单一职责 ...

    使用git将代码push到osc上

    1.下载git客户端 2.在osc上创建项目 ①使用:git bash here ②在目录下执行:git init ③ssh-keygen -t rsa -C "xqs@gmail.com& ...

    HDU 4049 Tourism Planning(动态规划)

    Tourism Planning Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others) ...

    JS代码的加载

    HTML页面中JS的加载原理:在加载HTML页面的时候,当浏览器遇到内嵌的JS代码时会停止处理页面,先执行JS代码,然后再继续解析和渲染页面.同样的情况也发生在外链的JS文件中,浏览器必须先花时间下载 ...

    mac&lpar;osx&rpar; apache无法启动 localhost无法访问服务器&lbrack;&rsqb;

    问题描述:由于删除了/private/var/log下面的日志,导致重启电脑后apache无法正常工作. 删除log的初衷是:当系统用久了,日志文件占据了几十个G的硬盘容量. 造成的后果:重启电脑后a ...

    mybatis缓存创建过程

    带着 上篇 的问题,再来看看mybatis的创建过程 1.从SqlSessionFactoryBuilder解析mybatis-config.xml开始 对文件流解析 XMLConfigBuilder ...

    jquery 中ajax的参数

    url: 要求为String类型的参数,(默认为当前页地址)发送请求的地址. type: 要求为String类型的参数,请求方式(post或get)默认为get.注意其他http请求方法,例如put和 ...

    mvc设计模式的优点

    软件设计的理念是:高内聚,低耦合.采用三层: UI:(jsp,servlet), service:(具体的业务实现), dao:(对数据库的操作) 的设计模式来指导项目开发可以使得项目各层之间是一个粗 ...

    Mac idea 执行testng用例,提示&percnt;MODULE&lowbar;WORKING&lowbar;DIR&percnt;目录不存在解决办法

    idea 下载git代码 执行testng用例,报错: 下午4:47 Error running 'Test.apkStart': Cannot start process, the working ...

    springBoot bean注入

    1.@Component:把普通pojo实例化到spring容器中,相当于配置文件中的 2.@Autow ...

    展开全文
  • 这是一篇基于Python代码使用FMM算法达到中文分词效果实现方法的文章。中文语句分词因为编码的关系在Python语言中并不是很好处理,关于中文乱码与编码的问题解决方法,可以参考玩蛇网的Python中文乱码与编码的问题 超...

    这是一篇基于Python代码使用FMM算法达到中文分词效果实现方法的文章。中文语句分词因为编码的关系在Python语言中并不是很好处理,关于中文乱码与编码的问题解决方法,可以参考玩蛇网的Python中文乱码与编码的问题 超高清视频教程。

    本文的Python代码中用到了FMM算法,想要知道FMM算法是什么?大家可以自行百度一下,这里就是最简单思想是:使用贪心算法向前找n个,如果这n个组成的词在词典中出现,就通过;如果没有出现,那么找n-1个,一样一直继续下去;假如n个词在词典中出现,这时就要从n+1位置继续找下去,一直到句子的结束为止。

    Python FMM算法的中文分词器实现方法源码如下:

    import re

    #导入re模块(Regular Expression正则表达式)

    def PreProcess(sentence,edcode="utf-8"):

    sentence = sentence.decode(edcode)

    sentence=re.sub(u"[。,,!……!《》<>\"'::?\?、\|“”‘’;]"," ",sentence)

    return sentence

    def FMM(sentence,diction,result = [],maxwordLength = 4,edcode="utf-8"):

    i = 0

    sentence = PreProcess(sentence,edcode)

    length = len(sentence)

    while i < length:

    # find the ascii word

    tempi=i

    tok=sentence[i:i+1]

    while re.search("[0-9A-Za-z\-\+#@_\.]{1}",tok)<>None:

    i= i+1

    tok=sentence[i:i+1]

    if i-tempi>0:

    result.append(sentence[tempi:i].lower().encode(edcode))

    # find chinese word

    left = len(sentence[i:])

    if left == 1:

    """go to 4 step over the FMM"""

    """should we add the last one? Yes, if not blank"""

    if sentence[i:] <> " ":

    result.append(sentence[i:].encode(edcode))

    return result

    m = min(left,maxwordLength)

    #www.iplaypy.com

    for j in xrange(m,0,-1):

    leftword = sentence[i:j+i].encode(edcode)

    # print leftword.decode(edcode)

    if LookUp(leftword,diction):

    # find the left word in dictionary

    # it's the right one

    i = j+i

    result.append(leftword)

    break

    elif j == 1:

    """only one word, add into result, if not blank"""

    if leftword.decode(edcode) <> " ":

    result.append(leftword)

    i = i+1

    else:

    continue

    return result

    def LookUp(word,dictionary):

    if dictionary.has_key(word):

    return True

    return False

    def ConvertGBKtoUTF(sentence):

    return sentence.decode('gbk').encode('utf-8')

    dictions = {}

    dictions["ab"] = 1

    dictions["cd"] = 2

    dictions["abc"] = 1

    dictions["ss"] = 1

    dictions[ConvertGBKtoUTF("好的")] = 1

    dictions[ConvertGBKtoUTF("真的")] = 1

    sentence = "asdfa好的是这样吗vasdiw呀真的daf dasfiw asid是吗?"

    s = FMM(ConvertGBKtoUTF(sentence),dictions)

    for i in s:

    print i.decode("utf-8")

    test = open("test.txt","r")

    for line in test:

    s = FMM(CovertGBKtoUTF(line),dictions)

    for i in s:

    print i.decode("utf-8")

    Python中文分词的代码中多次出现了"utf-8"、'gbk'、decode、encode这类编python码转换的函数方法。对于大多数字初学python的朋友们来说,这是一个难点,并不容易理解。但一但理解透彻了又会感觉十分的简单。

    这个基于Python FMM算法的中文分词器实现方法源码就这样了,能达要需要的效果实现,当然也可以再做更好的更改。希望和大家有更多的交流,有问题也可以在下面的评论区中一起学习交流。

    玩蛇网文章,转载请注明出处和文章网址:https://www.iplaypy.com/code/c2717.html

    相关文章 Recommend

    展开全文
  • 本 Chat 首先简单介绍了自然语言处理...目录:分词算法的概念分词算法的应用具体算法Python 实现实例:《红楼梦》分词注1. 分词算法的概念中文分词就是将中文语句中的词汇按照使用时的含义切分出来的过程,也就是将...

    本 Chat 首先简单介绍了自然语言处理中中文分词的概念和应用场景。然后通过两个简单的小例子展示了算法的步骤。接着编写了 Python 代码,并在《红楼梦》上做了测试。最后,总结了我在写代码中遇到的问题,以避免读者犯同样的错误。

    目录:

    分词算法的概念

    分词算法的应用

    具体算法

    Python 实现

    实例:《红楼梦》分词

    1. 分词算法的概念

    中文分词就是将中文语句中的词汇按照使用时的含义切分出来的过程,也就是将一个汉字序列切分成一个个有单独含义的词语。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。

    分词算法是自然语言处理(Nature Language Processing, NLP)中的基础。完整的中文自然语言处理过程一般包括以下五种中文处理核心技术:分词、词性标注、命名实体识别、依存句法分析、语义分析。

    2. 分词算法的应用

    下面从搜索引擎和机器翻译两方面介绍一下分词算法的应用。

    2.1 搜索引擎

    比如,在百度中搜索“科比詹姆斯”,在搜索之前,将“科比詹姆斯”这 5 个字拆分,变成了 “科比” 和 “詹姆斯”两个词,最终是以“科比” 和 “詹姆斯”两个词为关键词进行搜索,而不是直接搜索 5 个字。

    2.2 机器翻译

    比如,在有道词典中翻译“研究生命起源”。让机器直接翻译这6个字肯定是翻译不出来的,通过结果我们就可以看出,在翻译前,将“研究生命起源”6 个字拆分成了“研究”,“生命”和“起源”3 个词,再进行翻译之后组合在一起。

    2.3 手写英文

    书本上英文的单词之间总是存在空格,但是手写的英文之间的空格就没那么明显。这也是一个需要分词的场景。

    展开全文
  • 最大匹配算法是自然语言处理中的中文匹配算法中最基础的算法,分为正向和逆向,原理都是一样的。正向最大匹配算法,故名思意,从左向右扫描寻找词的最大匹配。首先我们可以规定一个词的最大长度,每次扫描的时候寻找...
  • 中文分词算法是指将一个汉字序列切分成一个一个单独的词,与英文以空格作为天然的分隔...通过本 Chat,你将学会基于字符串匹配的中文分词算法的原理及 Python 代码实现: 正向最大匹配法 逆向最大匹配法 最少切分 ...
  • 中文分词算法—最大匹配法1 正向最大匹配法FMM2 反向最大匹配法BMM3 双向最大匹配法4 python实现代码5 参考文献 1 正向最大匹配法FMM 2 反向最大匹配法BMM 3 双向最大匹配法 4 python实现代码 5 参考文献 user_dict ...
  • 正向最大匹配法,最终切分结果为:“我们/在野/生动/物/园/玩” 2、python代码实现 1 #-*- coding: utf-8 -*- 2 """ 3 Created on Thu Jul 19 08:57:56 20184 5 @author: Lenovo6 """ 7 8 test_file = ‘train/...
  • [1].[代码] [Python]代码import redef PreProcess(sentence,edcode="utf-8"):sentence = sentence.decode(edcode)sentence=re.sub(u"[。,,!……!《》<>\"'::?\?、\|“”‘’;]"," ",sentence)return ...
  • 在之前的博文中介绍了基于词典的正向最大匹配算法,用了不到50行代码就实现了,然后分析了词典查找算法的时空复杂性,最后使用前缀树来实现词典查找算法,并做了3次优化。下面我们看看基于词典的逆向最大匹配算法的...
  • tf–idf算法python代码实现这是我写的一个tf-idf的简单实现的代码,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四句话,每句表示一个文档copus=['我正在...
  • 包含三种基于词典的Uni-gram中文分词算法代码,分别为正向最大匹配,逆向最大匹配,全切分。代码全是自己写的,其中“全切分算法”好难写,且在网上没找到能拿来用的python代码,无奈自己写。因写的繁琐(找时间修改...
  • 结巴分词(自然语言处理之中文分词器)jieba分词算法使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG), 再采用了动态规划查找最大概率路径,找出基于词频的最大切分...
  • 其处理过程就是分词算法。 可以将中文分词方法简单归纳为: 1.基于词表的分词方法 2.基于统计的分词方法 3.基于序列标记的分词方法 其中,基于词表的分词方法最为简单,根据起始匹配位置不同可以分为: 1.前向最大...
  • 逆向最大匹配分词是中文分词基本算法之一,因为是机械切分,所以它也有分词速度快的优点,且逆向最大匹配分词比起正向最大匹配分词更符合人们的语言习惯。逆向最大匹配分词需要在已有词典的基础上,从被处理文档的...
  • tf–idf算法python代码实现这是我写的一个tf-idf的简单实现的代码,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四句话,每句表示一个文档copus=['我正在...
  • 理论介绍分词是自然语言处理的一个基本工作,中文分词和英文不同,字词之间没有空格。中文分词是文本挖掘的基础...其处理过程就是分词算法。可以将中文分词方法简单归纳为:1.基于词表的分词方法2.基于统计的分词方...
  • 声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python自然语言处理》,欢迎大家关注...
  • 之前挂课的时候看到有同事在讲中文分词,风格很有学校里做presentation的感觉,于是我想接着课程里分享的内容,再扯一点分词算法的东西。这里只讲算法不涉及代码实现,大家有兴趣的话可以在阅读的过程中一起思考。...
  • 逆向最大匹配方法有正即有负,正向最大匹配算法大家可以参阅http://www.jb51.net/article/127404.htm逆向最大匹配分词是中文分词基本算法之一,因为是机械切分,所以它也有分词速度快的优点,且逆向最大匹配分词比起...
  • tf–idf算法python代码实现 这是我写的一个tf-idf的简单实现的代码,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四句话,每句表示一个文档 copus=['...
  • Python学习】python中文分词

    千次阅读 2012-10-08 19:24:39
    用很简短的代码实现了一个动态规划为基础的分词算法。   =======================================================================   相对于英文而言,中文在计算机处理方面有个必须要面对的问题就是中文...
  • HMM分词 手写中文分词极简代码 徒手编写Java中文分词【贝叶斯网络+动态规划】 点击此处可查看中文分词算法原理 用法:传入自定义词典(格式HashMap, Integer>)创建对象,然后cut即可 隐马尔科夫模型 viterbi
  • 代码实现: # !/usr/bin/python3 # -*- coding:utf-8 -*- # @Time : 2019/10/13 11:48 # @Author : Huang Shiquan # @Email : 1357626165@qq.com # @File : MM.py # @Project : Unit3_SplitWords # @algorithm ...
  • 之前看到的有关python写的一篇 基于 一阶HMM 序列标注算法的分词代码,主要是基于B M E S序列状态和维特比算法,对当前的句子进行序列标注,然后基于标注序列进行中文分词,这也是目前主流的分词算法,因此结合代码...

空空如也

空空如也

1 2 3 4 5 6
收藏数 104
精华内容 41
关键字:

中文分词算法python代码

python 订阅