精华内容
下载资源
问答
  • CNN 中文文本挖掘 文本分类 python 深度学习 机器学习 CNN 中文文本挖掘 文本分类 python 深度学习 机器学习
  • 基于支持向量机、决策树、KNN、随机森林、朴素贝叶斯这几种算法的中文文本分类方法实现,包含语料(训练集、测试集)
  • 新闻栏目中文文本分类,新闻栏目一共有: 体育 5000 时政 5000 房产 5000 家居 5000 财经 5000 时尚 5000 科技 5000 教育 5000 娱乐 5000 游戏 5000 每个新闻栏目拥有5000条新闻,通过对新闻内容作为样本训练模型,...
  • 中文文本分类语料(复旦)-训练集和测试集 这个链接是训练集,本语料库由复旦大学李荣陆提供。test_corpus为测试语料,共9833篇文档;train_corpus为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料...
  • 本语料库由复旦大学李荣陆提供。 train.zip共9804篇文档,test.zip共9832篇文档,都分为20个类别。 下载后可以自己重新切分数据,也可以直接用。 ...使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然...
  • 基于ELMo词向量的textCNN中文文本分类python代码,ELMo是基于哈工大的HIT-SCIR/ELMoForManyLangs,文本分类代码是基于keras的,有数据有模型有代码。
  • 做毕设自用的中文新闻文本分类语料库,整理自搜狗新闻和清华新闻语料,共八个类别,每类已分好4000条训练集和1000条测试集。附赠一份停用词表,综合了哈工大停用词及川大停用词。
  • PyTorch的BERT中文文本分类 此存储库包含用于中文文本分类的预训练BERT模型的PyTorch实现。 代码结构 在项目的根目录,您将看到: ├── pybert | └── callback | | └── lrscheduler.py  | | └── ...
  • 本语料库由复旦大学李荣陆提供。 下载的原始数据编码格式是gb18030,用python解析时报错,这个是用java将数据格式转为utf-8编码格式后的结果。 train.zip共9804篇文档,test.zip共9832篇文档,都分为20个类别。...
  • 本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。...
  • 中文文本分类,Bert,ERNIE,基于pytorch,开箱即用。 介绍 模型介绍、数据流动过程:还没写完,写好之后再贴博客地址。 工作忙,懒得写了,类似文章有很多。 机器:一块2080Ti , 训练时间:30分钟。 环境 python ...
  • 中文文本分类语料(复旦大学)-训练集和测试集。测试语料共9833篇文档;训练语料共9804篇文档。使用时请注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。
  • CNN-RNN中文文本分类

    2019-03-02 16:03:16
    CNN-RNN中文文本分类,基于TensorFlow 环境 Python 2/3 (感谢howie.hu调试Python2环境) TensorFlow 1.3以上 numpy scikit-learn scipy
  • 复旦大学谭松波中文文本分类语料库 中文文本分类语料(复旦大学)-训练集和测试集。测试语料共9833篇文档;训练语料共9804篇文档。
  • 复旦大学中文文本分类语料.xlsx
  • 实现文本分类的主要包括几个步骤文本分词处理,特征选择,特征权重计算,文本特征向量表示,基于训练文本的特征向量数据训练SVM模型,对于测试集进行特征向量表示代入训练得到的svm模型中进行预测分类,达到93%的...
  • 复旦大学谭松波中文文本分类语料库,资源免积分下载,仅供大家学习使用,这个数据集到底怎么用我也没试过。
  • 本语料库由复旦大学李荣陆提供。训练和测试两个语料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。
  • 这个链接是测试集,训练集请见我的资源 本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料...
  • keras实现中文文本分类;实现中文分析,词向量引入;基于语义的特征卷积计算,实现文本分类
  • 中文文本分类

    千次阅读 2019-08-13 23:54:07
    文本挖掘与文本分类的概念 文本挖掘(Text Mining)是从一个非机构化文本信息中获取用户感兴趣或者有用的模式过程。文本挖掘的 7 个主要领域如下: 搜索和信息检索:存储和文本文档的检索,包括搜索引擎和文档的...
    文本挖掘与文本分类的概念

    文本挖掘(Text Mining)是从一个非机构化文本信息中获取用户感兴趣或者有用的模式过程。文本挖掘的 7 个主要领域如下:

    • 搜索和信息检索:存储和文本文档的检索,包括搜索引擎和文档的检索。
    • 文本聚类:使用聚类方法,对词汇、片段、段落或文件进行分组或分类。
    • 文本分类:对片段、段落或文件进行分组和归类,在使用数据挖掘分类的方法基础上,经过训练地标记示例模型。
    • Web 挖掘:在互联网上进行数据和文本挖掘,并特别关注网络的规模和相互联系。
    • 信息抽取:从非结构化文本中识别与提取有关的事实和关系;从非结构化或半结构化文本中抽取结构化数据的关系。
    • 自然语言处理:将语言作为一种有意义、有规则的符号系统,在底层解析和理解语言的任务(如,词性标注);目前的技术主要从语法、语义的角度发现语言最本质的结构和所表达的意义。
    • 概念提取:把单词和短语按语义分成有意义相似的组。


      目前,主要存在两种文本分类方法:
    • 一、基于模式系统(通过运用知识工程技术)
    • 二、分类模型(通过使用统计和/或机器学习技术)
    文本分类项目

    文本分类步骤:
    1)预处理:去除文本的噪声信息,例如 HTML 标签、文本格式转换、检测句子边界。
    2)中文分词:使用中文分词器为文本分词,并去除停用词。
    3)构建词向量空间:统计文本词频,生成文本的词向量空间。
    4)权重策略 ——TF-IDF 方法:使用 TF-IDF 发现特征词,并抽取为反应文档主题的特征。
    5)分类器:使用算法训练器分类。
    6)评价分类结果:分类器的测试结果分析。

    文本预处理

    1. 选择处理的文本范围
    选择适当的范围取决于文本挖掘任务的目标:对于分类或聚类的任务,往往把整个文档作为处理单位;对于情感分析、文档自动文摘或信息检索,段落或章节可能更合适。
    2.建立分类文本语料库
    1)训练集语料
    复旦大学谭松波中文文本分类语料库
    搜狗新闻分类语料库
    相对于搜狗新闻分类而言,复旦大学的中文文本语料库小一些,但质量很高,是用于学习教育比较专业的语料。
    2)测试语料集
    所谓测试集就是待分类的文本语料,可以是训练集的一部分,也可以是外部来源的文本语料。待分类文本资源的获取方式有很多,如公司、图书馆、商业公司、互联网。
    3)文本格式转换
    不同格式的文本不论采用哪种处理方式,都要统一转换为纯文本文件,例如,网页文本、Word 或 PDF 文件都要转换为纯文本格式。
    一般 Python 去除 HTML 标签,较多使用 lxml 库,这是一个 C 语言编写的 XML 扩展库,比使用 re 正则表达式库的标签去除方式性能高得多,适用于海量的网络文本格式转换。
    样例代码:

    from lxml import html
    
    path = 'data/1.html'
    content = open(path,'rb').read()
    page = html.document_fromstring(content)
    text = page.text_content()
    print(text)
    

    4)检测句子边界:标记句子结束
    句子边界检测时分解整个文档,并转换成单独句子的过程,对于中文文本,它就是寻找“。”、“?”、“!”的过程,英文中有 “.” 等。

    中文分词介绍

    中文分词指的是将一个汉字序列切分成一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
    中文分词难点:
    一个著名的例子:“鸡蛋”、“牛肉”、“下雨”是词吗?如果是,那么“鸭蛋”、“驴肉”、“下雪”、“鸟蛋”、“鱼肉”、“下雾”也应该是词,按照这样的规则组合下去,会产生很多令人费解的结论,如果不是,这些字符串在我们日常生活中使用的频率非常高,而且都有独立的意义。
    一般像这种到最后谁也想不明白的问题,最终都交给概率论。
    分词是自然语言处理中最基本、最底层的模块,分词精度对后续应用模块影响很大。目前,文本的结构化表示简单分为四大类:词向量空间模型、主题模型、依存句法的树表示、RDF的图表示。
    jieba 分词系统支持的分词模式包括默认切分、全切分、搜索引擎切分几种。中文文本分词之后,连续的字序列就变成了以词为单位的向量。向量中的每个分量都是一个有独立意义的词。通过分词,中文文本实现了最基础的结构化。
    在实际应用中,为了后续生成词向量空间模型方便,还要引入 Scikit-Learn 库的 Bunch 数据结构将分词后的文本信息转换为文本向量信息并对象化。

    from sklearn.datasets.base import Bunch # 导入Bunch类
    import os
    import pickle
    # Bunch 类提供一种 Key,value的对象形式
    # target_name:所有分类集名称列表
    # label:每个文件的分类标签列表
    # filenames:文件路径
    # contents:分词后文件词向量形式
    
    def savefile(savepath,content): # 保存至文件
        fp = open(savepath,"wb")
        fp.write(content)
        fp.close()
    
    def readfile(path): # 读取文件
        fp = open(path,"rb")
        content = fp.read()
        fp.close()
        return content
        
    bunch = Bunch(target_name=[],label=[],filenames=[],contents=[])
    wordbag_path = "train_word_bag/train_set.dat" # 分词语料 Bunch 对象持久化文件路径
    seg_path = "train_corpus_seg/" # 分词后分类语料库路径
    
    catelist = os.listdir(seg_path)
    bunch.target_name.extend(catelist) # 将类别信息保存到 Bunch 对象中
    for mydir in catelist:
        class_path = seg_path + mydir +"/"
        file_list = os.listdir(class_path)
        for file_path in file_list:
            fullname = class_path + file_path
            bunch.label.append(mydir) # 保存当前文件的分类标签
            bunch.filenames.append(fullname) # 保存当前文件的文件路径
            bunch.contents.append(readfile(fullname).strip()) # 保存文件词向量
            
        # Bunch 对象持久化
        file_obj = open(wordbag_path,"wb")
        pickle.dump(bunch,file_obj)
        file_obj.close()
        
        print("构建文本对象结束")
    

    这样就在目录下生成了一个 train_set.dat 文件。此文件保存所有训练文件的所有分类信息,以及每个文件的文件名、文件所属分类信息和词向量。

    Scikit-Learn 库简介

    Scikit-Learn 首页

    1 .模块分类

    • 分类和回归算法:广义线性模型,线性和二次判别分析,岭回归,支持向量机,随机梯度下降,KNN,高斯过程,交叉分解,朴素贝叶斯,决策树,集成方法,多细粒度的算法,特征选择,半监督,保序回归,概率标准。
    • 聚类算法:K-means,仿射传播,均值漂移,谱聚类,分层聚类,DBSCAN,Birch。
    • 维度约简:PCA,潜在语义分析(截断奇异值分析),字典学习,因子分析,ICA,非负矩阵分解。
    • 模型选择:交叉验证,评价估计性能,网格搜索,搜索参数估计,模型的预测质量的量化评价,模型的持久化,验证曲线,绘制分数评价模型。
    • 数据预处理:标准化,去除均值率和方差缩放,正规化,二值化,编码分类特征,缺失值的插补。

    2 . 主要特点

    • 操作简单,高效的数据挖掘和数据分析。
    • 无访问限制,在任何情况下可重复使用。
    • 建立在 Numpy、SciPy 和 Matplotlib 基础上。
    • 使用商业开源协议 —— BSD 许可证。
    向量空间模型

           文本分类的结构化方法就是向量空间模型。虽然越来越多的实践证明,这种模型存在着局限性,但是迄今为止,它仍是在文本分类中应用最广泛、最为流行的数据结构,也是很多相关技术的基础,例如推荐系统、搜索引擎。
      向量空间模型把文本表示为一个向量,该向量的每个特征表示为文本中出现的词。通常,把训练集中出现的每个不同的字符串都作为一个维度,包括停用词、专有词、词组和其他类型模式串,如电子邮件地址和 URL 。目前,大多数文本挖掘系统都把文本存储为向量空间表示,因为他便于运用机器学习算法。这类算法适用并能有效处理高维空间文本的情况。
      由于文本在存储为向量空间时维度比较高,为节省存储空间和提高存储效率,在文本分类之前会自动过滤掉某些字或词,这些字或词即被称为停用词。这类词一般都是意义模糊的常用词,还有一些语气助词,通常它们对文本起不了分类特征的意义。这些停用词都是人工输入,非自动化生成的,生成后的停用词会形成一张停用词表。可以下载停用词表
      读取停用词列表代码:

    #读取文件
    # 1. 读取停用词表
    stopword_path = "train_word_bag/hlt_stop_words.txt"
    stpwrdlst = readfile(stopword_path).splitines()
    

    权重策略:TF-IDF 方法
    • 文本1:My dog ate my homework .
    • 文本2:My cat ate the sandwich.
    • 文本3:A dolphin ate the homework.

    生成的词袋中不重复的词 9 个,这里增加词频信息:a(1),ate(3),cat(1),dolphin(1),dog(1),homework(2),my(3),sandwich(1),the(2).
    二元表示法:

    • 文本1:0,1,0,0,1,1,1,0,0(尽管 “my” 出现了两次,但二元向量表示中仍然是 “1”)。
    • 文本2:0,1,1,0,0,0,1,1,1。
    • 文本3:1,1,0,1,0,1,0,0,1。

    采用这种方式的忽略了一个句子中出现多个相同词的词频信息,采用整数型计数方式的词向量表示:

    • 文本1:0,1,0,0,1,1,2,0,0(“my” 在句子中出现了两次)。
    • 文本2:0,1,1,0,0,0,1,1,1。
    • 文本3:1,1,0,1,0,1,0,0,1。

    接下来,对整数型计数方式进行归一化。归一化可以避免句子长度不一致的问题,便于算法计算。而且对于基于概率的算法,词频信息就变为了概率分布,这就是文档的 TF 信息。

    • 文本1:0,1/5,0,0,1/5,1/5,2/5,0,0。
    • 文本2:0,1/5,1/5,0,0,0,1/5,1/5,1/5。
    • 文本3:1/5,1/5,0,1/5,0,1/5,0,0,1/5。

    词条的文档频率:a(1/3),ate(3/3),cat(1/3),dolphin(1/3),dog(1/3),homework(2/3),my(3/3),sandwich(1/3),the(2/3).

    词袋模型的 IDF 权重:
    a log(3/1), ate log(3/3), cat log(3/1), dolphin log(3/1), dog log(3/1), homework log(3/2), my log(3/2), sandwich log(3/1), the log(3/2)。

    1. TF-IDF权重策略
      计算文本的权重向量,应该选择一个有效的权重方案。最流行的方案是 TF-IDF 权重策略。TF-IDF 的含义是词频逆文档频率,其含义是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文档中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
      “my” 这个词在文本中是经常出现的词汇之一。它不仅多次出现在单一的文本中,而且几乎出现在每个文档中。逆文档频率就是使用词条的文档频率来抵消该词的词频对权重的影响,从而得到一个较低的权重。
      词频(Term Frequency, TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(Term Count)的归一化,以防止它偏向长的文件。它的重要性可表示为:


    T F i j = n i , j ∑ k n k , j TF_{ij}=\frac{n_{i,j}}{\displaystyle\sum_k{n_{k,j}}} TFij=knk,jni,j

      分子是该词在文件中的出现次数,而分母则是在文件中所有字词的出现次数之和.   逆向文件频率(Inverse Document Frequency, IDF)是一个词普遍重要性的度量.某一特定词语的 IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到.

    公式为:


    I D F i = log ⁡ ∣ D ∣ { j : t i ∈ d j } IDF_i=\log\frac{|D|}{\{j:t_i\in d_j\}} IDFi=log{j:tidj}D

      其中,
    • ∣ D ∣ : |D|: D: 语料库中的文件总数。

    • j : j: j: 包含词语的文件数目。如果该词语不在语料库中,就会导致分母为零,因此一般情况下使用 1 + ∣ { d ∈ D : t ∈ d } ∣ 1+|\{d\in D:t\in d\}| 1+{dD:td}

      然后再计算 T F TF TF I D F IDF IDF 的乘积。
      某一特定文件内的高词频率,以及该词语在整个文件集合中的低文件频率( T F I D F i j = T F i j I × I D F i j TFIDF_{ij}=TF_{ij}I\times IDF_{ij} TFIDFij=TFijI×IDFij),可以产生出高权重的 T F − I D F TF-IDF TFIDF 。因此, T F − I D F TF-IDF TFIDF 倾向于过滤掉常见的词语,保留重要的词语。

        import sys
        import os
        from sklearn.datasets.base import Bunch # 引入 Bunch 类
        import pickle # 引入持久化类
        from sklearn import feature_extraction
        from sklearn.feature_extraction.text import TfidfTransformer # TF-IDF 向量转换类
        from sklearn.feature_extraction.text import TfidfVectorizer # TF-IDF 向量生成类
        
        # 读取 Bunch 对象
        def readbunchobj(path):
            file_obj = open(path,"rb")
            bunch = pickle.load(file_obj)
            file_obj.close()
            return bunch
        
        # 写入 Bunch 对象
        def writebunchobj(path,bunchobj):
            file_obj = open(path,"wb")
            pickle.dump(bunchobj,file_obj)
            file_obj.close()
        
        
        def savefile(savepath, content):  # 保存至文件
            fp = open(savepath, "wb")
            fp.write(content)
            fp.close()
        
        
        def readfile(path):  # 读取文件
            fp = open(path, "rb")
            content = fp.read()
            fp.close()
            return content
        
        # 从训练集生成 TF-IDF 向量词袋
        # 导入分词后的词向量 Bunch 对象
        path = "train_word_bag/train_set.dat" # 词向量空间保存路径
        bunch = readbunchobj(path)
        
        #读取停用词表
        stopword_path = "train_word_bag/hlt_stop_words.txt"
        stpwrdlst = readfile(stopword_path).splitines()
        
        # 构建 TF-IDF 词向量对象
        tfidfspace = Bunch(target_name=bunch.target_name, label=bunch.label, filenames=bunch.filenames, tdm=[], vocabulary={})
        
        # 使用 TfidfVectorizer
        vectorizer = TfidfVectorizer(stop_words=stpwrdlst,sublinear_tf=True,max_df=0.5)
        transformer = TfidfTransformer() # 该类会统计每个词语的 TF-IDF 权值
        
        # 文本转为词频矩阵,单独保存字典文件
        tfidfspace.tdm = vectorizer.fit_transform(bunch.contents)
        tfidfspace.vocabulary = vectorizer.vocabulary_
        
        # 持久化 TF-IDF 向量词袋
        space_path = "train_word_bag/tfdifspace.dat" # 词向量词袋保存路径
        writebunchobj(space_path,tfidfspace)
      

    使用朴素贝叶斯分类模块

    最常用的文本分类方法有 KNN 最近邻算法、朴素贝叶斯算法和支持向量机算法。一般而言,KNN 最近邻的算法原理最简单,分类精度尚可,但是速度最慢;朴素贝叶斯算法对于短文本分类效果最好,精度较高;支持向量机的算法的优势是支持线性不可分的情况,精度上取中。
      测试步骤与训练集相同,首先是分词,之后生成文件词向量文件,直至生成词向量模型。不同的是,在训练词向量模型时,需要加载训练集词袋,将测试集产生的词向量映射到训练集词袋的词典中,生成向量空间模型。

    代码如下:

    # 导入分词后的词向量 Bunch 对象
    path = "test_word_bag/test_set.dat" # 词向量空间保存路径
    bunch = readbunchobj(path)
    
    # 构建测试集 TF-IDF 向量空间
    testspace = Bunch(target_name=bunch.target_name, label=bunch.label, filenames=bunch.filenames,tdm=[],vocabulary={})
    
    # 导入训练集的词袋
    trainbunch = readbunchobj("tarin_word_bag/tfdifspace.dat")
    
    # 使用 TfidfVectorizer 初始化向量空间模型
    vectorizer = TfidfVectorizer(stop_words=stpwrdlst,sublinear_tf=True,max_df=0.5,vocabulary=tarinbunch.vocabulary) # 使用训练集词袋向量
    transformer = TfidfTransformer()
    testspace.tdm = vectorizer.fit_transform(bunch.contents)
    testspace.vocabulary = trainbunch.vocabulary
    
    # 创建词袋的持久化
    space_path = "test_word_bag/testsapce.dat" # 词向量空间保存路径
    writebunchobj(space_path,testspace)
    
    # 导入多项式贝叶斯算法包
    from sklearn.naive_bayes import MultinomialNB
    
    # 执行预测
    # 导入训练集向量空间
    trainpath = "train_word_bag/tfdifspace.dat"
    train_set = readbunchobj(trainpath)
    
    # 导入测试集向量空间
    testspath = "test_word_bag/testspace.bat"
    test_set = readbunchobj(testspath)
    
    # 应用朴素贝叶斯算法
    # alpha:0.001 alpha 越小,迭代次数越多,精度越高
    clf = MultinomialNB(alpha=0.001).fit(train_set.tdm,train_set.label)
    
    # 预测分类结果
    predicted = clf.prdict(test_set.tdm)
    total = len(predicted);rate=0
    for flabel,file_name,expect_cate in zip(test_set.label,test_set.filenames,predicted):
        if flabel != expect_cate:
            rate += 1
            print(file_name,":实际类别:",flabel,"-->预测类别:",expect_cate)
        # 精度
        print("error rate:",float(rate)*100/float(total),"%")
    

    分类结果评估

    机器学习领域的算法评估有三个基本的指标。

    1)召回率(Recall Rate,也叫查全率):是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检查系统的查全率。


    召回率(Recall)= 系统检索到的相关文件 / 系统所有相关的文件总数

    2)准确率(Precision,也称为精度):是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率。
    准确率(Precision)= 系统检索到的相关文件 / 系统所有检索到的文件总数

    注意:准确率和召回率是互相影响的,理想情况下肯定是做到两者都高,但是一般情况下准确率高,召回率就低;召回率高,准确率就低。

    3) F β − M e a s u r e F_{\beta}-Measure FβMeasure(又称为 F-Score):是机器学习领域常用的评价标准,计算公式为:


    F β = ( β 2 + 1 ) P R β 2 P + R F_{\beta}=\frac{(\beta^2+1)PR}{\beta^2P+R} Fβ=β2P+R(β2+1)PR

    其中, β \beta β 是参数, P P P 是准确率, R R R 是召回率
    β = 1 \beta=1 β=1 时,就是最常见的 F 1 − M e a s u r e F_1-Measure F1Measure 了。


    F 1 = 2 P R P + R F_1=\frac{2PR}{P+R} F1=P+R2PR

    文本分类项目的分类结果评估,代码如下。

    import numpy as np
    from sklearn import metrics
    
    # 定义分类精度函数
    def metrics_result(actual, predict):
        print("精度:{0:.3f}".format(metrics.precision_score(actual,predict)))
        print("召回:{0:0.3f}".format(metrics.recall_score(actual,predict)))
        print("f1-score:{0:.3f}".format(metrics.f1_score(actual,predict)))
        
    metrics_result(test_set.label,predicted)
    
    展开全文
  • 中文文本分类语料(复旦)训练集+测试集(100M)完整版
  • cnews中文文本分类数据集;由清华大学根据新浪新闻RSS订阅频道2005-2011年间的历史 数据筛选过滤生成,训练过程见我的博客;
  • 复旦大学中文文本分类训练集和测试集,all文件夹为复旦大学中文文本分类语料集,test_corpus为该语料集中挑选部分划分出来的,train_corpus为该语料集中挑选test_corpus后剩余部分划分出来的。下载以后可以按照自己...
  • 以复旦中文文本分类语料库为样本,用python实现的文本分类算法 由于训练集和测试集太大,所以给出的是训练集和测试集的下载地址,以及停用词表hlt_stop_words.txt Python版本为2.7 运行顺序: step1:corpus_segment...
  • 资源为新闻类的中文文本分类数据集,能够满足机器学习,文字分析方面的需求
  • 本语料库由复旦大学李荣陆提供。训练语料和测试语料两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)
  • 中文文本分类停用词1208个中文文本分类停用词1208个中文文本分类停用词1208个
  • THUCTC(THU Chinese Text Classification)是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动高效地实现用户自定义的文本分类语料的训练、评测、分类功能。文本分类通常包括特征选取、特征降维、...
  • bert_chinese_pytorch 参考代码: CSDN博文(施工中):

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 86,139
精华内容 34,455
关键字:

中文文本分类