精华内容
下载资源
问答
  • 10-中文文本特征提取

    2021-03-07 16:52:34
    停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的,生成...

    停用词

    在这里插入图片描述
    什么是停用词

    停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。但是,并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的。

    https://baike.baidu.com/item/%E5%81%9C%E7%94%A8%E8%AF%8D
    

    在代码中我们应该如何使用停用词呢?

    transfer=CountVectorizer(stop_words=["is","too"])  # 添加停用词
    
    # -*- coding: utf-8 -*-
    
    """
    @Time    : 2021/3/7 16:13
    @Author  : yuhui
    @Email   : 3476237164@qq.com
    @FileName: 09_文本特征提取CountVectorizer.py
    @Software: PyCharm
    """
    
    from sklearn.feature_extraction.text import CountVectorizer
    
    data=["life is short,i like like python",
    "life life is too long,i dislike python"]
    
    # data=["我爱北京天安门","天安门上太阳升"]
    # data=["我 爱 北京 天安门","天安门 上 太阳 升"]  # 用空格来分开单词与单词
    
    # 实例化一个转换器类
    transfer=CountVectorizer()
    # transfer=CountVectorizer(stop_words=["is","too"])  # 添加停用词
    # 统计每个样本特征词出现的个数
    
    # 调用方法
    data_new=transfer.fit_transform(data)
    
    print(data_new)  # 返回一个稀疏矩阵
    print(data_new.toarray())  # 将稀疏矩阵转变为真正的矩阵
    
    # 查看属性
    # 查看特征名
    print(transfer.get_feature_names())
    
    

    在这里插入图片描述

    中文文本特征提取

    jieba分词处理

    在这里插入图片描述

    pip3 install jieba
    

    代码演示

    # -*- coding: utf-8 -*-
    
    """
    @Time    : 2021/3/7 17:04
    @Author  : yuhui
    @Email   : 3476237164@qq.com
    @FileName: 10_中文文本特征提取.py
    @Software: PyCharm
    """
    import jieba
    from sklearn.feature_extraction.text import CountVectorizer
    
    def Chinese_text_feature_extraction(text):
    	"""中文文本特征提取  自动分词"""
    	# 对中文文本进行分词
    	data_new = []
    	for t in text:
    		data_new.append(jieba_cut_word(t))
    
    	# 实例化一个转换器类
    	transfer = CountVectorizer()
    	# 调用方法
    	text_new = transfer.fit_transform(data_new)
    
    	print(text_new)
    	# 查看特征名
    	print(transfer.get_feature_names())
    
    
    def jieba_cut_word(text):
    	"""使用jieba对文本进行分词处理"""
    	return " ".join(list(jieba.cut(text)))
    
    
    if __name__ == '__main__':
    	text = ["今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。", "我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。",
    			"如果只用一种方式了解某样事物,你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]
    	Chinese_text_feature_extraction(text)
    
    
    D:\Anaconda3\Installation\envs\math\python.exe D:/Machine_Learning/Machine_Learning_1/code/10_中文文本特征提取.py
    Building prefix dict from the default dictionary ...
    Loading model from cache C:\Users\Lenovo\AppData\Local\Temp\jieba.cache
      (0, 6)	2
      (0, 26)	2
      (0, 22)	2
      (0, 12)	1
      (0, 32)	1
      (0, 31)	1
      (0, 14)	1
      (0, 24)	1
      (0, 19)	1
      (0, 27)	1
      (0, 2)	1
      (0, 20)	1
      (1, 18)	3
      (1, 28)	2
      (1, 23)	1
      (1, 7)	1
      (1, 8)	1
      (1, 3)	1
      (1, 9)	1
      (1, 35)	1
      (1, 17)	1
      (1, 34)	1
      (2, 18)	1
      (2, 16)	1
      (2, 11)	1
      (2, 0)	1
      (2, 21)	1
      (2, 4)	4
      (2, 25)	1
      (2, 5)	3
      (2, 1)	1
      (2, 29)	2
      (2, 13)	1
      (2, 30)	1
      (2, 10)	1
      (2, 15)	1
      (2, 33)	1
    ['一种', '不会', '不要', '之前', '了解', '事物', '今天', '光是在', '几百万年', '发出', '取决于', '只用', '后天', '含义', '大部分', '如何', '如果', '宇宙', '我们', '所以', '放弃', '方式', '明天', '星系', '晚上', '某样', '残酷', '每个', '看到', '真正', '秘密', '绝对', '美好', '联系', '过去', '这样']
    Loading model cost 0.610 seconds.
    Prefix dict has been built successfully.
    
    Process finished with exit code 0
    
    

    小结

    如何对中文文本进行特征提取?

    • 导库
    import jieba
    from sklearn.feature_extraction.text import CountVectorizer
    
    • 对中文文本进行分词处理

    在这里插入图片描述

    在这里插入图片描述

    • 实例化一个转换器类
    # 实例化一个转换器类
    transfer = CountVectorizer()
    
    • 调用方法
    # 调用方法
    text_new = transfer.fit_transform(data_new)
    
    • 查看属性
    print(text_new)
    # 查看特征名
    print(transfer.get_feature_names())
    

    第一次复习

    # -*- coding: utf-8 -*-
    
    """
    @Time    : 2021/4/8 17:14
    @Author  : yuhui
    @Email   : 3476237164@qq.com
    @FileName: 10_中文文本特征提取_2.py
    @Software: PyCharm
    """
    from sklearn.feature_extraction.text import CountVectorizer
    import jieba
    
    def Chinese_text_feature_extraction(data):
    	"""中文文本特征提取"""
    
    	# 使用jieba对文本进行分词处理
    	word_list=[]
    	for i in data:
    		word=" ".join(list(jieba.cut(i)))
    		word_list.append(word)
    	print(word_list)
    
    	transfer=CountVectorizer()
    	data_new=transfer.fit_transform(word_list)
    
    	print(data_new)
    
    	print(transfer.get_feature_names())  # 特征名
    
    if __name__ == '__main__':
    	data=["今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。", "我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。",
    			"如果只用一种方式了解某样事物,你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]
    	Chinese_text_feature_extraction(data)
    
    
    D:\Anaconda3\Installation\envs\math\python.exe D:/Machine_Learning/Machine_Learning_1/code/10_中文文本特征提取_2.py
    Building prefix dict from the default dictionary ...
    Loading model from cache C:\Users\Lenovo\AppData\Local\Temp\jieba.cache
    Loading model cost 0.606 seconds.
    Prefix dict has been built successfully.
    ['今天 很 残酷 , 明天 更 残酷 , 后天 很 美好 , 但 绝对 大部分 是 死 在 明天 晚上 , 所以 每个 人 不要 放弃 今天 。', '我们 看到 的 从 很 远 星系 来 的 光是在 几百万年 之前 发出 的 , 这样 当 我们 看到 宇宙 时 , 我们 是 在 看 它 的 过去 。', '如果 只用 一种 方式 了解 某样 事物 , 你 就 不会 真正 了解 它 。 了解 事物 真正 含义 的 秘密 取决于 如何 将 其 与 我们 所 了解 的 事物 相 联系 。']
      (0, 6)	2
      (0, 26)	2
      (0, 22)	2
      (0, 12)	1
      (0, 32)	1
      (0, 31)	1
      (0, 14)	1
      (0, 24)	1
      (0, 19)	1
      (0, 27)	1
      (0, 2)	1
      (0, 20)	1
      (1, 18)	3
      (1, 28)	2
      (1, 23)	1
      (1, 7)	1
      (1, 8)	1
      (1, 3)	1
      (1, 9)	1
      (1, 35)	1
      (1, 17)	1
      (1, 34)	1
      (2, 18)	1
      (2, 16)	1
      (2, 11)	1
      (2, 0)	1
      (2, 21)	1
      (2, 4)	4
      (2, 25)	1
      (2, 5)	3
      (2, 1)	1
      (2, 29)	2
      (2, 13)	1
      (2, 30)	1
      (2, 10)	1
      (2, 15)	1
      (2, 33)	1
    ['一种', '不会', '不要', '之前', '了解', '事物', '今天', '光是在', '几百万年', '发出', '取决于', '只用', '后天', '含义', '大部分', '如何', '如果', '宇宙', '我们', '所以', '放弃', '方式', '明天', '星系', '晚上', '某样', '残酷', '每个', '看到', '真正', '秘密', '绝对', '美好', '联系', '过去', '这样']
    
    Process finished with exit code 0
    
    
    展开全文
  • 4026.2019.06.015摘要: 提出了一种基于卷积循环神经网络的文本特征提取方法,同时对比使用统计学中的TF-IDF以及Word2vec方法的文本特征表示,将提取的特征分别放入SVM与随机森林分类器中对来源于中国知网的中文学术...

    曹鲁慧,邓玉香,陈通,李钊

    doi: 10.3976/j.issn.1002-4026.2019.06.015

    摘要: 提出了一种基于卷积循环神经网络的文本特征提取方法,同时对比使用统计学中的TF-IDF以及Word2vec方法的文本特征表示,将提取的特征分别放入SVM与随机森林分类器中对来源于中国知网的中文学术论文数据集进行分类。实验结果表明,使用卷积神经网络和卷积循环神经网络特征提取模型提取的特征所取得的分类效果比TF-IDF、Word2vec特征提取方法得到的分类效果更好,同时使用SVM和随机森林分类器取得的分类效果略好于原生的神经网络。

    Abstract: This paper proposes a text-feature extraction method based on a convolutional recurrent neural network, and in the meanwhile, it also compares the statistical methods TF-IDF and Word2vec for text-feature representation. Text features are then fed into the SVM and Random forest classifier to classify the Chinese academic papers from CNKI. Experimental results show that the classification results obtained from the feature extraction models based on the convolutional neural network and convolutional recurrent neural network are better than those obtained from the TF-IDF and Word2vec feature extraction methods. Furthermore, the classification results obtained from the SVM and Random forest classifier are slightly better than those obtained from the native neural network

    特征提取是机器学习中一项非常重要的特征工程任务,是处理机器学习任务的关键,同时也是数据挖掘、信息检索等领域中非常重要的一项内容。在机器学习领域众多的任务中,特征提取往往决定任务结果的好坏,就常用的分类任务而言,其分类结果的好坏同样取决于其所提取的特征的质量。传统的特征提取方法通常是人工提取,这种方法提取的特征通常包含与分类任务无关以及冗余的特征,此外其特征的维度通常比较大,这不仅使得模型训练过程效率降低、消耗资源,也会使模型过拟合并降低分类的准确率。为了解决特征维度过大、效率低下的问题,通常会对传统方法提取的特征进行降维,在所有的特征中挑选一部分最能够表示文本信息并使得分类效果最好的特征子集,但是这将使得分类任务的工作量增大。

    近年来越来越多的研究者通过深度学习技术对特征进行提取。Chen等[1]提出使用多个卷积层与池化层的卷积网络来对高光谱图像的特征进行提取,然后将提取的特征用于图像分类以及目标检测并取得了不错的效果。在文本特征提取方面,Liang等[2]对文本特征提取的方法进行了概述,介绍了常用的传统特征提取方法以及基于深度学习的特征提取方法。其中基于深度学习的特征提取方法主要包括自编码神经网络特征提取、受限波兹曼机特征提取、循环神经网络特征提取以及一些其他的特征提取方法。Saxena等[3]讨论了从传统的词袋模型方法到非传统神经网络方法在文本分类特征提取中的所有应用方法,包括词袋模型、向量空间模型、人工神经网络、模糊神经网络、卷积神经网络以及深度信念网络。Meng等[4]采用弱监督多级神经网络对文本特征进行提取。Yao等[5] 使用了图卷积神经网络对文本进行了特征提取和分类。因此,结合深度学习进行文本特征提取已经成为研究领域的热点。

    目前使用深度学习技术提取特征在图像领域应用相对比较广泛,在文本特征提取方面文献报道相对较少,尤其是针对中文文本的特征提取研究成果较为稀缺。同时,使用传统的手工特征提取方法提取的特征维度通常比较大,使模型训练效率低、消耗资源。因此使用深度学习方法对中文长文本数据集进行特征提取,能够降低文本特征提取的难度,提高模型训练效率,同时也能够更准确地表示文本语义信息。本文使用两种不同的深度学习神经网络结构对文本特征进行提取。一种是卷积神经网络结构,该结构源于Kim[6]提出的用于句子分类的卷积神经网络结构;另一种是本文新提出的卷积循环神经网络结构。同时,使用传统的TF-IDF以及Word2vec特征提取方法对文本特征进行表示,提取的特征分别放入SVM与随机森林分类器中,对中国知网中文学术论文数据集进行分类。实验结果表明,使用卷积神经网络和卷积循环神经网络结构提取的高层文本特征比传统方法提取的特征更能准确表示文本信息,同时使用SVM和随机森林分类器取得的分类效果比原生的神经网络的效果更好。

    7c6058d6c0bf2f239c670edbde7c5214.png

    若需获取全文,请点击“了解更多”

    展开全文
  • 注意: ...中文情况下analyzer='word'参数需要带上,vocabulary=cv.vocabulary_这样的参数是为了使测试集和训练集特征数对齐 代码: from time import time import sys import os import numpy ...

    注意:
    安装jieba用此命令:easy_install jieba。pip install jieba有时不能正确安装。
    中文情况下analyzer='word'参数需要带上,vocabulary=cv.vocabulary_这样的参数是为了使测试集和训练集特征数对齐


    代码:

    from time import time
    import sys
    import os
    import numpy as np
    import scipy.sparse as sp
    import matplotlib.pyplot as plt
    import jieba
    import jieba.posseg as pseg
    
    
    from sklearn import feature_extraction
    from sklearn.feature_extraction.text import TfidfTransformer  
    from sklearn.feature_extraction.text import CountVectorizer  
    from sklearn.feature_extraction.text import TfidfVectorizer
    from sklearn.naive_bayes import MultinomialNB
    from sklearn.linear_model import SGDClassifier
    from sklearn.metrics import confusion_matrix
    from sklearn.metrics import classification_report
    
    
    corpus=["我爱河南。",#第一类文本切词后的结果,词之间以空格隔开 
    "你恨河南。",
    "他总是爱河南。",
    "我有时候恨河南。"]
    tokenized_corpus = []
    for text in corpus:
    tokenized_corpus.append(" ".join(jieba.cut(text)))
    
    
    test_corpus = ["我爱河南的胡辣汤。"]
    tokenized_test_corpus = []
    tokenized_test_corpus.append(" ".join(jieba.cut(test_corpus[0])))
    
    corpus_result = [1, 0, 1, 0]
    
    #下面几个是HashingVectorizer, CountVectorizer+TfidfTransformer,TfidfVectorizer, FeatureHasher的正确用法。
    
    #fh = feature_extraction.FeatureHasher(n_features=15,non_negative=True,input_type='string')
    #X_train=fh.fit_transform(tokenized_corpus)
    #X_test=fh.fit_transform(tokenized_test_corpus)
    
    #fh = feature_extraction.text.HashingVectorizer(n_features=15,non_negative=True,analyzer='word')
    #X_train=fh.fit_transform(tokenized_corpus)
    #X_test=fh.fit_transform(tokenized_test_corpus)
    
    #cv=CountVectorizer(analyzer='word')
    #transformer=TfidfTransformer()
    #X_train=transformer.fit_transform(cv.fit_transform(tokenized_corpus))
    #cv2=CountVectorizer(vocabulary=cv.vocabulary_)
    #transformer=TfidfTransformer()
    #X_test = transformer.fit_transform(cv2.fit_transform(tokenized_test_corpus))
    
    
    #word=cv.get_feature_names()
    #weight=X_train.toarray()
    #for i in range(len(weight)):
    # print u"-------这里输出第",i,u"类文本的词语tf-idf权重------"  
    # for j in range(len(word)):  
    #            print word[j],weight[i][j] 
    
    
    tfidf = TfidfVectorizer(analyzer='word')
    X_train=tfidf.fit_transform(tokenized_corpus)
    tfidf = TfidfVectorizer(analyzer='word', vocabulary = tfidf.vocabulary_)
    X_test=tfidf.fit_transform(tokenized_test_corpus)
    
    y_train = corpus_result
    y_test = [1]
    
    def benchmark(clf_class, params, name):
        print("parameters:", params)
        t0 = time()
        clf = clf_class(**params).fit(X_train, y_train)
        print("done in %fs" % (time() - t0))
        if hasattr(clf, 'coef_'):
            print("Percentage of non zeros coef: %f" % (np.mean(clf.coef_ != 0) * 100))
        print("Predicting the outcomes of the testing set")
        t0 = time()
        pred = clf.predict(X_test)
        print("done in %fs" % (time() - t0))
        print("Classification report on test set for classifier:")
        print(clf)
        print()
        print(classification_report(y_test, pred))
        cm = confusion_matrix(y_test, pred)
        print("Confusion matrix:")
        print(cm)
    
    
    if __name__ == "__main__":  
        print("Testbenching a linear classifier...")
        parameters = {
    'loss': 'hinge',
    'penalty': 'l2',
    'n_iter': 50,
    'alpha': 0.00001,
    'fit_intercept': True,
        }
        benchmark(SGDClassifier, parameters, 'SGD')
    

     

    参考:
    http://blog.csdn.net/liuxuejiang158blog/article/details/31360765 用count和tfidf
    http://www.tuicool.com/articles/vYnIve 用FeatureHasher
    http://blog.csdn.net/pat_datamine/article/details/43969631 jieba, 通过复用训练集的vocabulary来达到测试集和训练集特征数对齐的目的
    http://blog.csdn.net/abcjennifer/article/details/23615947 复用训练集的vocabulary

     


    原文链接:https://blog.csdn.net/huxuanlai/article/details/67639937

    展开全文
  • 什么是特征工程 比赛会有成绩的提交,跟算法与数据清洗都有关系,也就是特征工程 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个...特征提取/抽取 比如上面这个文章,我想通过这个文章作为训练集,...

    什么是特征工程

    在这里插入图片描述
    比赛会有成绩的提交,跟算法与数据清洗都有关系,也就是特征工程

    数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已

    特征工程是使用专业背景知识技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。
    意义:会影响机器学习的效果

    pandas用来作数据清洗 数据缺失值处理
    sklearn 特征工程


    特征提取/抽取

    在这里插入图片描述
    比如上面这个文章,我想通过这个文章作为训练集,那么应该怎么办呢?
    机器学习算法 ——统计方法 —— 数学公式

    文本类型转换成数值如何转
    类型 转换数值

    特征提取
    将任意数据(文本或者图像)转换为可用于机器学习的数字特征

    在这里插入图片描述
    在这里插入图片描述
    那么在特征提取,我们就要需要用的sklearn中的这个类featur_extraction

    字典特征提取

    在这里插入图片描述
    vector 数学向量 物理矢量
    矩阵 matrix 二维数组
    用一维数组来存储向量

    在这里插入图片描述
    过程,如何将这个文本的样本转换成矩阵的向量集

    当特征中类别的时候,公平的表示。类别特征,one-hot编码

    def dict_demo():
        """
        字典特征抽取
        :return:
        """
        data = [{'city':'北京','temperature':100},{'city':'上海','temperature':60}, {'city':'深圳','temperature':30}]
        #1) 实例化一个转换器类
        transfer = DictVectorizer()
        #2)调用fit_transform()
        data_new = transfer.fit_transform(data)
        print(data_new)
        return None
    

    在这里插入图片描述
    fit_transfer()函数返回的是一个sparse矩阵
    稀疏矩阵

    如果我们想看到像这样的形式
    在这里插入图片描述
    要在实例化的时候添加这个sparse参数

    要在参数调用的时候,添加sparse==False

    在这里插入图片描述

    稀疏矩阵:将非0值表示出来

    在这里插入图片描述
    表示1.0在第0行 第一列 节省内存 提高加载效率
    以此类推

    在这里插入图片描述
    one-hot编码

    在这里插入图片描述

    应用场景:
    1)数据集中类别特征比较多
    将数据集的特征转换成字典类型
    DictVectorizer转换
    2)本身达到的字典类型


    文本特征提取 单词作为特征 其实有句子,短语,单词,字母 特征:特征词

    方法1:CountVertorizer
    在这里插入图片描述

    在这里插入图片描述
    这个文本特征提取,不像字典特征提取一样。不可以在实例化的时候,生成一个sparse=False
    这样是不可以,所以要给他转换成一个数组的形式,这样就会变成这样的一个二维数组

    这个文本抽取:就是统计这个样本出现的次数 统计每个样本特征词出现的个数

    在这里插入图片描述
    当我们使用中文进行实验,发现这个方法把两个句子作为特征。这样不太好

    stop_words 停用的
    对于分类没有用的时候,以列表的形式
    停用词表

    中文文本的特征提取

    jieba这个附件的下载

    在这里插入图片描述
    在这里插入图片描述

    利用jieba.cut的结果是返回一个生成器。
    在这里插入图片描述

    展开全文
  • 文本特征提取CountVectorizer属于机器学习特征工程中特征提取的一个tip,如果我们对一篇文章进行分类,用什么特征比较好呢(不单看文章的标题的话)?句子、短语、单词、字母中哪个合适一点呢,比较一下单词好一点。...
  • 文本特征提取

    万次阅读 2019-03-05 20:36:57
    词:在英文文本处理当中面对的是单个词组用空格隔开容易区分,在中文文本当中需要通过特定的词库如python中的jieba、中科院、清华、哈工大的一些分词工具来进行分词处理。在处理词类时一般关注词性、词与上下文之间是...
  • CountVectorizer TfidfVectorizer 中文处理 系列目录 ...python学习 文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理 python学习文本特征提取(三) CountVectorizer TfidfVectorizer ...
  • 中文文本特征提取: 对文本数据进行特征值化(转换成特征向量),主要有两个API来实现 CountVectorizer 和 TfidfVectorizer CountVectorizer: 只考虑词汇在文本中出现的频率 TfidfVectorizer: 除了考量某词汇在...
  • 在学习黑马程序员出品的机器学习视频做的代码笔记。 代码中直接调用jieba第三方库进行分词,还可再做改进,关于英文分词的文章可以看... 对文本进行特征值化 :return:None """ cv = CountVectorizer() data = cv.f
  • 在文本分类中,需要先对文本分词...本文将简单介绍几种文本特征提取算法。信息增益(IG)对于一个系统,其信息熵为\(H(S)=-\sum_{i}^{C}P_ilog_2(P_i)\).\(C\)表示类别个数,\(P_i\)表示第\(i\)的类别的概率。某个特...
  • 2.3.3 文本特征提取 单词 作为 特征 句子、短语、单词、字母 特征:特征词 方法1:CountVectorizer 1)统计每个样本特征词出现的个数: ...
  • 单词、词语:作为特征值方法1:sklearn.feature_extraction.text.CountVectorizer(stop_words=[]),返回词语出现的次数,返回词频矩阵,stop_words=[]停用词列表·CountVectorizer.fit_transform(X)X:文本或者包含...
  • 中文文本分类问题中的特征提取的常见方法,包括常见的DF IG MI CHI等
  • 特征提取 --- 中文文本特征抽取

    千次阅读 2019-04-08 09:15:50
    jieba库 ex_1 import jieba def cut_word(text): text = ' '.join(list(jieba.cut(text))) return text ...def cut_chinese_demo2(): ... print("特征名字:\n", transfer.get_feature_names())

空空如也

空空如也

1 2 3 4 5 ... 18
收藏数 360
精华内容 144
关键字:

中文文本特征提取