精华内容
下载资源
问答
  • 新闻文本分类实战.zip

    2021-04-15 15:30:30
    新闻文本分类实战
  • 新闻文本分类问题

    2020-07-21 22:23:34
    新闻文本分类赛题理解新闻文本分类问题赛题理解解题方法 新闻文本分类问题 新闻文本分类问题是典型的字符识别问题。 赛题理解 赛题本质是一个文本分类问题,需要根据每句的字符进行分类。但赛题给出的数据是匿名化的...

    新闻文本分类问题

    新闻文本分类问题是典型的字符识别问题。

    赛题理解

    赛题本质是一个文本分类问题,需要根据每句的字符进行分类。但赛题给出的数据是匿名化的,不能直接使用中文分词等操作
    因此本次赛题的难点是需要对匿名字符进行建模,进而完成文本分类的过程。由于文本数据是一种典型的非结构化数据,因此可能涉及到特征提取和分类模型两个部分。

    解题方法

    思路1:TF-IDF + 机器学习分类器
    直接使用TF-IDF对文本提取特征,并使用分类器进行分类。在分类器的选择上,可以使用SVM、LR、或者XGBoost。

    思路2:FastText
    FastText是入门款的词向量,利用Facebook提供的FastText工具,可以快速构建出分类器。

    思路3:WordVec + 深度学习分类器
    WordVec是进阶款的词向量,并通过构建深度学习分类完成分类。深度学习分类的网络结构可以选择TextCNN、TextRNN或者BiLSTM。

    思路4:Bert词向量
    Bert是高配款的词向量,具有强大的建模学习能力。

    展开全文
  • 新闻文本分类-数据集

    2021-03-06 13:02:48
    零基础入门NLP - 新闻文本分类 NLP_data_list_0715.csv
  • 头条新闻文本分类数据集,包括11个类别,近50万条数据,文本内容为新闻标题+提取的关键词,分为训练数据和验证数据两个文件
  • 新闻文本分类比赛的训练数据和测试数据
  • 新闻文本分类—基于深度学习的文本分类(fastText)

    1. 学习目标

    (1)学习FastText的使用和基础原理
    (2)学会使用验证集进行调参

    2.FastText文本表示法

    FastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。

    所以FastText是一个三层的神经网络,输入层、隐含层和输出层。
    在这里插入图片描述
    使用keras实现的FastText网络结构:

    from __future__ import unicode_literals
    
    from keras.models import Sequential
    from keras.layers import Embedding
    from keras.layers import GlobalAveragePoolingID
    from keras.layers import Dense
    
    VOCAB_SIZE = 2000
    EMBEDDING_DIM = 100
    MAX_WORDS = 500
    CLASS_NUM = 5
    
    def build_fastText():
        model = Sequential()
        #通过embedding层,我们将词汇映射成EMBEDDING_DIM维向量
        model.add(Embedding(VOCAB_SIZE,EMBEDDING_DIM,input_length=MAX_WORDS))
        #通过GlobalAveragePoolingID,我们平均了文档中所有词的embedding
        model.add(GlobalAveragePoolingID())
        #通过输出层Softmax分类(真实的fastText这里是分层Softmax),得到类别概率分布
        model.add(Dense(CLASS_NUM,activation='softmax'))
        #定义损失函数,优化器,分类度量指标
        model.compile(loss='categorical_crossentropy',optimizer='SGD',metrics=['accuracy'])
        return model
    
    if __name__ == '__main__':
        model = build_fastText()
        print(model.summary())
    

    FastText在文本分类任务上,是优于TF-IDF的:
    (1)FastText用单词的Embedding叠加获得的文档向量,将相似的句子分为一类
    (2)FastText学习到的Embedding空间维度比较低,可以快速进行训练

    3.基于FastText的文本分类

    
    ```python
    import pandas as pd
    import fasttext
    from sklearn.metrics import f1_score
    if __name__ == '__main__':
    
        # 转换为FastText需要的格式
        train_df = pd.read_csv('train_set.csv', sep='\t', nrows=15000)
        train_df['label_ft'] = '__label__' + train_df['label'].astype(str)
        train_df[['text','label_ft']].iloc[:-5000].to_csv('train.csv', index=None, header=None, sep='\t')
    
    
        model = fasttext.train_supervised('train.csv', lr=1.0, wordNgrams=2,
                                      verbose=2, minCount=1, epoch=25, loss="hs")
    
        val_pred = [model.predict(x)[0][0].split('__')[-1] for x in train_df.iloc[-5000:]['text']]
        print(f1_score(train_df['label'].values[-5000:].astype(str), val_pred, average='macro'))
    

    在这里插入图片描述

    可以使用交叉验证进行调参。

    展开全文
  • DataWhale新闻文本分类

    2020-07-21 17:50:35
    零基础入门NLP之新闻文本分类 赛题理解 赛题名称:零基础入门NLP之新闻文本分类 赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。 赛题任务:...

    零基础入门NLP之新闻文本分类

    赛题理解

    • 赛题名称:零基础入门NLP之新闻文本分类
    • 赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。
    • 赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。

     

    赛题数据

    赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。

    赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。为了预防选手人工标注测试集的情况,我们将比赛数据的文本按照字符级别进行了匿名处理。

    数据标签

    处理后的赛题训练数据如下:

    Image

    在数据集中标签的对应的关系如下:{'科技': 0, '股票': 1, '体育': 2, '娱乐': 3, '时政': 4, '社会': 5, '教育': 6, '财经': 7, '家居': 8, '游戏': 9, '房产': 10, '时尚': 11, '彩票': 12, '星座': 13}

     

    评测指标

    评价标准为类别f1_score的均值,选手提交结果与实际测试集的类别进行对比,结果越大越好。

     

    解题思路

    赛题思路分析:赛题本质是一个文本分类问题,需要根据每句的字符进行分类。但赛题给出的数据是匿名化的,不能直接使用中文分词等操作,这个是赛题的难点。

    因此本次赛题的难点是需要对匿名字符进行建模,进而完成文本分类的过程。由于文本数据是一种典型的非结构化数据,因此可能涉及到特征提取分类模型两个部分。为了减低参赛难度,我们提供了一些解题思路供大家参考:

    • 思路1:TF-IDF + 机器学习分类器

    直接使用TF-IDF对文本提取特征,并使用分类器进行分类。在分类器的选择上,可以使用SVM、LR、或者XGBoost。

    • 思路2:FastText

    FastText是入门款的词向量,利用Facebook提供的FastText工具,可以快速构建出分类器。

    • 思路3:WordVec + 深度学习分类器

    WordVec是进阶款的词向量,并通过构建深度学习分类完成分类。深度学习分类的网络结构可以选择TextCNN、TextRNN或者BiLSTM。

    • 思路4:Bert词向量

    Bert是高配款的词向量,具有强大的建模学习能力

    展开全文
  • 大规模新闻文本分类数据集,有多个领域,按文件夹摆放,不仅可以用来做文本分类实验,数据不少甚至可以用来做BERT预训练
  • 目录引言1 textCNN or Bert1.1 简介1.2 textcnn...赛题参考【NLP-新闻文本分类】1 数据分析和探索 1 textCNN or Bert 1.1 简介 (1)环境 tensorflow 1.x pytorch (2)作者博客和github 天池博客分享 Github源码 1.

    引言

    赛题参考【NLP-新闻文本分类】1 数据分析和探索

    1 textCNN or Bert

    1.1 简介

    (1)环境

    tensorflow 1.x
    pytorch
    

    (2)作者博客和github
    天池博客分享
    Github源码

    1.2 textcnn

    使用 TextCNN 模型的代码。讲解文章:阿里天池 NLP 入门赛 TextCNN 方案流程讲解

    1.3 bert

    使用 Bert 模型的代码。讲解文章分为 3 篇:

    2 Bert

    rank1第一名分享

    2.1 简介

    (1)环境

    Tensorflow == 1.14.0
    Keras == 2.3.1
    bert4keras == 0.8.4
    

    (2)github
    github源码

    2.2 文件说明

    • EDA:用于探索性数据分析。
    • data_utils:用于预训练语料的构建。
    • pretraining:用于Bert的预训练。
    • train:用于新闻文本分类模型的训练。
    • pred:用于新闻文本分类模型的预测。

    3 LSTM or CNN or Transformer

    3.1 简介

    (1)环境

    Keras==2.3.1
    tensorflow==1.15.0
    

    (2)Github
    Github源码

    3.2 模型得分

    模型 线下 线下
    LSTM 0.9485614776 0.9563
    CNN 0.9436911692 0.9532
    Transformer 0.9363675328 0.9465

    4 多模型融合

    Rank4分享

    4.1 简介

    (1)环境

    pytorch
    sklearn
    gensim
    Tensorflow2.0+
    xgboost
    lightgbm
    tqdm
    huggingface/transformers
    

    (2)博客和Github
    知乎-博客
    github源码

    4.2 模型得分

    模型 得分
    tfidf_lightgbm_cv 0.943~0.945
    textbirgru+pl 0.959
    textcnn-FC 0.943
    bertbilstmattn 0.9597
    bert系列没有特别多的记录 0.955+
    bert_mini系列 0.951~0.952
    bert_small系列没有特别多的记录 0.955+
    fasttext-text retrieval 0.93

    融合测试
    基本上textbigru_cv+bertbilstmattn (无pl) 此时也有0.969的成绩 加上pl其实就比较接近0.97了 后来我尝试了加上几个bert系列(后悔没有加上pl,否则可能还会提高) 结合tfidf做了一下对应lr, lightgbm, xgboost的stacking-B榜分数达到0.9702 总结: 其实我在线下验证集上达到了0.971, 但是我觉得可能B榜的类别分布与训练集不一样,所以我只有0.9702。

    5 TextRNN

    (1)github
    GitHub源码

    展开全文
  • NLP新闻文本分类新人赛数据集
  • 天池比赛 新闻文本分类数据集 test_a.csv train_set.csv
  • THUCNews新闻文本分类

    千次阅读 2019-06-21 16:38:48
    本文采用了清华NLP组提供的THUCNews新闻文本分类数据集的一个子集(原始的数据集大约74万篇文档,训练起来需要花较长的时间)。数据集请自行到THUCTC:一个高效的中文文本分类工具包下载,请遵循数据提供方的开源...
  • 新闻文本分类Task1

    2020-07-21 19:37:17
    新闻文本分类Task1 赛题理解 赛题名称:零基础入门NLP之新闻文本分类 赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。 赛题任务:赛题以自然语言...
  • 搜狗新闻文本分类竞赛

    千次阅读 2019-11-12 15:39:51
    FlyAI搜狗新闻文本分类项目 1、项目简介 搜狗新闻文本分类项目是NLP的入门项目,本文主要介绍使用keras框架通过构建CNN+BiGRU网络实现在搜狗新闻文本数据集上91+的准确率。 2、数据集来源 该数据集来自若干新闻...
  • 天池新闻文本分类-Task03- 基于机器学习的文本分类基于机器学习的文本分类学习目标机器学习模型文本表示方法 Part1One-hotBag of WordsN-gramTF-IDF基于机器学习的文本分类Count Vectors + RidgeClassifierTF-IDF + ...
  • 新闻文本分类,一般只考虑正文,忽略标题的重要性,改进了TF-IDF计算方法,兼顾了新闻标题和正文.实验表明,基于加权词向量和CNN的新闻文本分类方法比逻辑回归分类效果有较大提高,比不加权方法也有一定的提高.
  • 基于tensorflow+CNN的新闻文本分类-附件资源
  • 天池NLP赛事-新闻文本分类(一) —— 赛题理解 天池NLP赛事-新闻文本分类(二) —— 数据读取和数据分析 天池NLP赛事-新闻文本分类(三)——基于机器学习的文本分类 目录三、基于机器学习的文本分类3.1 机器学习...
  • 天池NLP赛事-新闻文本分类(一) —— 赛题理解 天池NLP赛事-新闻文本分类(二) —— 数据读取和数据分析 天池NLP赛事-新闻文本分类(三)——基于机器学习的文本分类 天池NLP赛事-新闻文本分类(四)——基于深度...
  • 【NLP】天池新闻文本分类(五)——基于深度学习的文本分类2前言Word2Vec文本法Word2Vec词向量TextCNN文本分类TextRNN文本分类HAN文本分类 前言 本文是NLP之新闻文本分类挑战赛(赛题链接)。 的第五篇:基于深度...
  • 天池-零基础入门NLP新闻文本分类导入相关库读入数据文本预处理训练模型输出上传文件 新闻文本分类 FastText在文本分类任务上是优于TF-IDF的: FastText用单词的Embedding叠加获得的文档向量,将相似的句子分为一类...
  • 【NLP】天池新闻文本分类(六)——基于深度学习的文本分类2前言基于Bert文本分类 前言 本文是NLP之新闻文本分类挑战赛(赛题链接)。 的第六篇:基于深度学习得文本分类3。上一篇是基于深度学习的文本分类2,介绍...
  • 新闻文本分类 - 赛题理解 赛题介绍 赛题名称 :零基础入门新闻文本分类 赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。 赛题数据 赛题以匿名处理后的新闻数据为...
  • NLP入门——天池新闻文本分类(3)基于深度学习的文本分类基于深度学习的文本分类学习目标文本表示方法 Part2之前的文本表示方法的缺陷FastText基于FastText的文本分类使用交叉验证集调参本章作业 基于深度学习的...
  • 基于tensorflow+CNN的搜狐新闻文本分类-附件资源
  • NLP入门——天池新闻文本分类(3)基于机器学习的文本分类基于机器学习的文本分类学习目标机器学习模型 基于机器学习的文本分类 这一次任务中会使用机器学习的模型来进行文本分类。机器学习的模型十分丰富,并且包括...
  • 从Web新闻网页中挖掘出有用的知识是当前研究的热点问题,将Web新闻网页进行解析,在此基础上进行Web新闻文本分类处理,可在一定程度上解决此问题。针对Web新闻网页的结构特点,提出了基于Web的新闻文本分类系统的实现...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,913
精华内容 1,165
关键字:

新闻文本分类