精华内容
下载资源
问答
  • 文本分类论文

    2014-04-14 23:24:06
    文本分类论文 很值得看 尤其是数据挖掘方面的相关学习者
  • 由于这两篇都是比较传统意义上的多标签文本分类,所以在此进行一些对比: 这篇论文是19年CIKM上的一篇论文,刚刚的两篇论文对多标签文本分类任务的处理其实是比较传统,甚至说是easy点的,而多标签文本分类任务的...

    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask
    mask

    在这里插入图片描述
    一、摘要
    (该论文的模型创新点在于词向量那里,所以全文的重心偏向于词向量部分)
    传统的机器学习方法主要用词袋以及ngram去生成特征向量作为文本表示,从而完成很多任务。但是对于短文本来说,比如tweet,由于短文本字数的限制,传统机器学习如果继续使用词袋和ngram,则可能会存在数据稀疏以及维度问题。
    所以现在所提出的词向量,作为神经网络的输入使得文本分类等任务有了更好的效果。
    本文提出CNN架构的一种模型。

    二、introduction
    先指出CBOW、TFIDF、ngram等传统方法,并且传统机器学习使用这些方法不能够表示词的语义,并且存在数据稀疏问题等。所以分布式词向量表示逐渐火热,并且非常有效。
    接下来就长篇大论的提word2vec、glove、pudmed等方法,也是更加偏向于去介绍词向量。并且传统的方法不够好,而神经网络的效果很好。所以他们使用了glove和pubmed的embedding,基于这两种embedding,提出了4个CNN模型,分别为CNN-PubMed,CNN-Glove,CNN-PGConcat 和 CNN-PGaverage。

    三、related work
    也是分两个大的模块来说,第一个模块是说传统文本分类方法,机器学习方法不好;第二个模块是说现在的神经网络所使用的词向量部分的内容。(内容过于简单,不多叙述)

    四、方法
    在这里插入图片描述
    还是很简单一目了然的,主要创新点在于词向量上做了两个手脚,这个点还是很创新的,这也是为什么全文重点在词向量上,但因为做nlp的对词向量比较熟悉,所以文章干货也不是很多。

    五、实验
    实验评价指标有问题,文章只是草草的说将输出层矩阵和数据集的矩阵进行了比较得出准确率,但是具体公示等等都没有。

    baseline模型有:
    SVM
    朴素贝叶斯
    随机森林
    决策树
    本文的两个模型。

    六、总结一下
    主要还是和传统模型进行对比。并且文章很大篇幅在说词向量的问题。实验部分的内容还是丰富的,但是模型的准确率的评价指标没有明确指出。与当前很多深度学习模型之间还是没有很多的对比。


    在这里插入图片描述
    一、introduction
    这是篇针对长文本的多标签文本分类问题。

    Binary relevance (BR) 方法是最早的一个方法,把多标签文本分类任务看作是由多个单分类文本分类任务的组合,其忽略标签与标签之间的依赖关系。
    Classifier chain (CC) 方法则包含了标签与标签间的依赖关系,其先把该任务看作是一系列的二分类问题,再通过模型来摸你标签与标签间的依赖关系。
    条件随机场CRF 方法和 conditional Bernoulli mixtures (CBF) 方法都是在处理标签依赖关系。
    但是上述方法只使用于小尺度的数据集,而非大尺度数据集。

    随后出现了CNN、RNN、DNN,以及叫做 Canonical Correlated AutoEncoder (C2AE) 等深度学习方法。
    但是其对标签中的依赖考虑还是不足,同时可解释性也不足。

    还有一些方法,比如seq2seq模型,LSTM,包括LSTM和seq2seq结合的方法,并加上注意力机制等方法。(该论文提出的模型即是基于seq2seq的,所以作者会有意识的去往seq2seq去引,并表现其优点)。

    论文中还提到了一个观点,对于多标签文本分类任务,之前有论文提到过,注意力机制不能够很好的在该任务中发挥作用。但是此论文作者指出,对于多标签文本分类任务,如果使用LSTM加上注意力,效果会没有别的模型好而已

    论文中又指出,局部信息是非常重要的(而他的模型即使用了局部信息)

    二、related work
    当前解决多标签文本分类任务,主要有三种:
    1.问题转化方法
    2.算法改进方法
    3.神经网络方法

    BR、label powerset(LP) 、CC方法都属于1
    ML-DT、Rank-SVM、KNN、CRF、CBM方法等都属于2
    CNN RNN LSTM seq2seq 包括一些结合的方法都属于3

    三、方法
    在这里插入图片描述
    非常清晰简单,直接看图。

    四、实验
    用了3个数据集进行了实验,其中一个数据集就是我之前项目中的知乎数据集,但是这里他对数据集进行了预处理,甚至说是进行了些挑选,这里我是很有疑惑的。

    评价指标真的非常赞!非常的清晰,可以算是一个范例了:
    Hamming Loss
    Micro-F1
    Micro-precision
    Micro-recall

    baseline模型既有传统的,也有ML的,也有NN的:
    BR
    CC
    LP
    CNN
    CNN-RNN
    S2S + Attn
    SGM
    MDC

    五、总结一下
    该论文的实验部分内容看起来怪少的,没有对实验内容进行了细致的分析。实际上,作者单独写了一个章节去进行更深入的分析,这是论文的精髓之处

    整篇论文对于相关工作等等方面的,叙述还是比较详细的。整个用神经网络去做多标签文本分类的各个方法以及类别等等分得比还是比较明确的同时实验部分的baseline以及整个实验设计,还是非常详细的,同时,对于数据所用的评价指标,也有详细的描述。对于实验部分的具体数据的分析,以及原理包括模型的挖掘,还是比较详细和深入的。但是整个有问题的话就是在知乎数据机上的数据使用问题,感觉有点问题。


    由于这两篇都是比较传统意义上的多标签文本分类,所以在此进行一些对比:
    在这里插入图片描述


    在这里插入图片描述
    这篇论文是19年CIKM上的一篇论文,刚刚的两篇论文对多标签文本分类任务的处理其实是比较传统,甚至说是easy点的,而多标签文本分类任务的痛点其实是在于层级标签的处理,这篇论文就是真正意义上的去处理层级多标签文本分类任务。

    摘要
    Hierarchical multi-label text classification (HMTC) 任务
    先前的很多方法都是直接处理所有的标签,或者是扁平化处理多标签文本分类问题,而忽略了标签的层级关系等,比如刚刚所提到的两篇论文。

    该论文的工作注意到 文本与层级结构之间的关系。
    首先对不同层级结构,自上而下的建模每一个level之间的依赖关系。
    然后提出了一个层级注意力策略去表示 文本与层级结构之间的关系(正如上面所提到的一样)
    最后提出了一个混合方法能够精准预测层级结构的每一个level。

    一、introduction
    扁平化的方法比如朴素贝叶斯被提出,但是该方法忽略了层级信息。

    为了考虑到层级结构,后续的方法大概可以分为两类:1.训练多个分类器,各负责各的层级分类任务。2.训练一个分类器,对全局进行分类预测。

    HMTC的挑战原因的具体分析主要有三点:
    1.文本与层级结构之间是有关联的
    2.层级结构中层与层之间也是有关联的
    3.不仅要关注局部信息,也要关注整个结构的信息。

    二、related work
    扁平化处理标签的方法比如决策树、朴素贝叶斯,但忽略了层级信息。
    还有些方法比如SVM等方法。
    然后是全局型的方法。
    最近则出现了很多神经网络的方法,比如HMC-LMLP方法
    还有一些混合方法。
    但论文指出,这些方法没有考虑到文本与层级结构之间的关联性。

    三、剩余内容没有多看了,和我目前任务有点偏离,所以做下总结:
    该论文的确是层级多标签文本分类,提出的模型也极其复杂,所用的baseline和平常见到的模型也不太一样,所以主要对我个人的帮助就在于相关工作部分的内容,但是相关工作部分的内容描述的也不是很清楚,所以就直接后面就都没看了。换了一篇更好的层级标签论文,并提出了一个新的小领域,下次组会再和大家分享。在这里插入图片描述
    上述PPT图片来自于天科大AI学院NLP组 组会PPT。

    展开全文
  • 基于深度学习的新闻文本分类算法的研究与实现,张维,何所惧,文本分类属于自然语言处理领域一个非常典型的问题,应用普遍。使用深度学习算法处理文本分类任务可以避免繁杂的人工特征工程,但
  • 这是一篇有关于贝叶斯的文本分类论文,其中很详细的解释了贝叶斯文本分类的过程,对数学公式的解析也很详细
  • 文本分类论文(3),知网上下载的 给大家分享一下,如果影响到其他人,请通知我。
  • CNN文本分类 论文收集

    千次阅读 2017-05-08 13:58:23
    Sequential Short-Text Classification with Recurrent and Convolutional Neural NetworksRecurrent Convolutional Neural Networks for Text ClassificationImproved Deep Learning Baselines for Ubuntu Corpus ...

    Sequential Short-Text Classification with Recurrent and Convolutional Neural Networks

    Recurrent Convolutional Neural Networks for Text Classification

    展开全文
  • 朴素贝叶斯文本分类

    2017-08-29 23:09:13
    基于朴素贝叶斯的文本分类,结合了TF-IDF算法和textrank算法
  • DL文本分类论文总结 part1

    千次阅读 2017-09-20 16:12:44
    最近对之前看的部分论文论文进行一些总结(大部分论文都实在实验和模型上进行改进和创新...看的第一篇使用卷积神经网络进行文本分类的文章,主要有两点: 1. K-max pooling 在序列中取前k大的数并且保持相对位置不变 2

    最近对之前看的部分论文论文进行一些总结(大部分论文都实在实验和模型上进行改进和创新,想看理论分析的可能要失望了)。

    1.      A Convolutional Neural Networkfor Modelling Sentences

    看的第一篇使用卷积神经网络进行文本分类的文章,主要有两点:

    1.      K-max pooling 在序列中取前k大的数并且保持相对位置不变

    2.      卷积是对每个词向量点乘以相同维数的向量后再相加。


    3.      按作者的思路,这种CNN能够比RecNN更加泛化。

    4.      具体过程大致如下(说实话,其中每行的k-maxpooling有点不直观)


    2.      Convolutional Neural Networksfor Sentence Classification

    应该可以说是最经典的CNN进行文本分类的论文了,短小精悍,一张图片基本可以说明模型计算过程:

     

    3.      Deep Unordered CompositionRivals Syntactic Methods for Text Classification

    相当简单的计算过程:

    1. take thevector average of the embeddings associated with an input sequence of tokens

    2. pass that averagethrough one or more feed- forward layers

    3. perform (linear) classification on the final layer’srepresentation

    The model can be improved by applying a noveldropout-inspired regularizer: for each training in- stance, randomly drop someof the tokens’ embed- dings before computing the average.

    但是实际上这篇文章给出了一个比较令人失望的结论,在一些任务中,仅仅使用这种简单的网络结构就能达到比较好的效果,甚至比一些复杂的网络结构效果更好。

    4.      Sequential Short-TextClassification with Recurrent and Convolutional Neural Networks

    Naacl的一篇短文,是对较短的文本进行分类,首先对每个句子使用CNN或者RNN计算出表示,之后使用每个句子和它的前几句话的表示作为输入。具体的结构如下所示:


    5.      Discriminative Neural SentenceModeling by Tree-Based Convolution

    Natural Language Inference by Tree-Based Convolution andHeuristic Matching

    1.      首先,使用parser对句子进行分析(组成分析或者依存分析),得到关于该句子的树形结构

    2.      在该树形结构中两层(可以有更多层)的结构使用以下公式进行计算:



    3.      Pooling, 这点没怎么看懂, 只知道他的global pooling 是计算每一个y向量的每一维的最大值


    6.      A Sensitivity Analysis of (andPractitioners’ Guide to) Convolutional Neural Networks for SentenceClassification

    使用卷积神经网络对一些数据集进行实验,分析各个参数对结果的影响。

    7.      Semantic Clustering andConvolutional Neural Network for Short Text Categorization

    主要步骤如下:

    1.      使用快速聚类算法(Rodriguez and Laio, 2014)发现semantic cliques。

    2.      在文本中对n-gram进行语义合成。来发现候选语义单元(candidate Semantic Units)。

    3.      The part of candidate SUsmeeting the preset threshold are chose to constitue semantic matrices, whichare used as input for the CNN, otherwise dropout。

    8.      ABCNN: Attention-BasedConvolutional Neural Network for Modeling Sentence Pairs

    文章主要是对一对句子进行建模,这篇文章首先使用了CNN的产生的局部特征作来计算attention。文章中给出了三种不同的网络结构(第三种是前两种网络结构的结合)



    9.      REASONING ABOUT ENTAILMENT WITHneural Attention

    和第8篇文章一样,任务是RTE(Recognizing textual entailment)或者说是NLI。

    使用两个不同参数的LSTM分别对Premise和Hypothesis进行处理(第二个LSTM的初始隐藏状态为第一个LSTM的最后一个隐藏状态)


    使用以下公式计算出attentionα和加权后的表示r


    之后再通过以下公式计算出final sentence-pair


    以上计算过程是通过hypothesis的最后一个状态(h9)得到的attention。可以通过h7、h8、h9分别得到attention。

    展开全文
  • 数据来源cnews,可以通过百度云下载 ...提取码:zejw   数据格式如下: bert中文预训练模型下载地址: ...提取码:mvtl 复制run_classifier.py,命名为run_cnews_cls.py。添加自定义的Processor ...class MyProcessor(D
  • 来自 AI算法之心近些天一直忙着毕业以及小论文投递的事情,没有及时更新公众号。在此表示抱歉。最近有很多小伙伴想了解深度学习在文本分类的发展,因此,笔者整理最近几年比较经典的深度文本分类方...

    来自 AI算法之心

    近些天一直忙着毕业以及小论文投递的事情,没有及时更新公众号。在此表示抱歉。

    最近有很多小伙伴想了解深度学习在文本分类的发展,因此,笔者整理最近几年比较经典的深度文本分类方法,希望帮助小伙伴们了解深度学习在文本分类中的应用。

    笔者整理了近些年的相关深度文本分类论文,关注“AI算法之心”,后台回复“文本分类论文”即可下载。

    Convolutional Neural Networks for Sentence Classification (EMNLP 2014)

    Kim在EMNLP2014提出的TextCNN方法,在多个数据集上取得了很好的效果。由于其计算速度快以及可并行性,在产业界得到了广泛使用。TextCNN的模型示意图如下图所示。

    TextCNN模型首先将文本映射成向量,然后利用多个滤波器来捕捉文本的局部语义信息,接着使用最大池化,捕捉最重要的特征。最近将这些特征输入到全连接层,得到标签的概率分布。

    代码参考:

    1) https://github.com/alexander-rakhlin/CNN-for-Sentence-Classification-in-Keras

    2) https://github.com/brightmart/text_classification

    图1:TextCNN模型架构

    Document Modeling with Gated Recurrent Neural Network for Sentiment Classification (EMNLP 2015)

    Tang等人提出了一种利用GRU对文档进行建模的情感分类模型。模型如下图所示。

    该模型首先将文本映射为向量,然后利用CNN/LSTM(论文中使用3个滤波器的CNN)进行句子表示。另外,为了捕获句子的全局语义表征,将其输送给平均池化层,再接入tanh激活函数。最后将整个句子的不同宽度卷积核的向量表示接入一个Average层,从而得到句子平均向量表示。

    然后将得到的句子表示,输入到GRU中,得到文档向量表示。最后将文档向量输送给softmax层,得到标签的概率分布。

    图2:文档级别情感分类的神经网络模型

    Recurrent Convolutional Neural Networks for Text Classification (AAAI 2015)

    Lai等人提出了一种无人工特征的循环卷积神经网络分类方法,简称RCNN。

    RCNN首先利用Bi-RNN来捕捉前后的上下文表征,然后将其concat起来,接着使用滤波器filter_size=1的卷积层,并使用最大池化操作得到与文档最相关的向量表征,最后将这些向量输入到softmax层,得到标签的概率表征。

    代码参考:

    1) https://github.com/roomylee/rcnn-text-classification

    2) https://github.com/brightmart/text_classification

    图3: RCNN的模型结构示意图

    Recurrent Neural Network for Text Classification with Multi-Task Learning (IJCAI 2016)

    Liu等人针对文本多分类任务,提出了基于RNN的三种不同的共享信息机制对具有特定任务和文本进行建模。

    模型1(Uniform-Layer Architecture):所有任务共享同一个LSTM层,并在每个特定任务后面拼接一个随机生成可训练的向量。LSTM层的最后一个时刻的隐藏层作为输入传入到softmax层。

    模型2(Coupled-Layer Architecture): 每个任务具有自己独立的LSTM层,但是每一时刻所有任务的hidden state则会和下一时刻的character一起作为输入,最后一个时刻的hidden state进行分类。

    模型3(Shared-Layer Architecture):除了一个共享的BI-LSTM层用于获取共享信息,每个任务有自己独立的LSTM层,LSTM的输入包括每一时刻的character和BI-LSTM的hidden state。

    图4:三种架构进行多任务学习建模

    Hierarchical Attention Networks for Document Classification (NAACL 2016)

    Yang等人提出了一种用于文档分类的层次注意力机制网络,简称HAN。这篇文章和Tang等人都是针对于文档分类的问题,然而,这篇文章在句子级别以及文档级别提出了注意力机制,使得模型在构建文档时是能够赋予重要内容不同的权重,同时,也可以缓解RNN在捕捉文档的序列信息产生的梯度消失问题。HAN模型的模型示意图如下所示。

    HAN模型首先利用Bi-GRU捕捉单词级别的上下文信息。由于句子中的每个单词对于句子表示并不是同等的贡献,因此,作者引入注意力机制来提取对句子表示有重要意义的词汇,并将这些信息词汇的表征聚合起来形成句子向量。具体的注意力机制的原理可以参考:

    FEED-FORWARD NETWORKS WITH ATTENTION CAN SOLVE SOME LONG-TERM MEMORY PROBLEMS

    然后,对于所有的句子向量输入到Bi-GRU中,捕捉句子级别的上下文信息,得到文档向量。同样地,为了奖励对文档进行正确分类的线索句,作者再次使用注意力机制,来衡量句子的重要性,得到文档向量。最后将文档向量均输入到softmax层,得到标签的概率分布。

    代码参考:

    1) https://github.com/richliao/textClassifier

    2) https://github.com/brightmart/text_classification

    图3: HAN模型结构示意图

    Bag of Tricks for Efficient Text Classification (EACL 2017)

    Joulin等人提出了一种简单而又有效的文本分类模型,简称fastText。

    fastText模型输入一个词序列(一段文本或者一句话),序列中的词与词组成特征向量,然后特征向量通过线性变换映射到中间层,中间层再映射到标签。输出这个词序列属于不同类别的概率。其中fastText在预测标签是使用了非线性激活函数,但在中间层不使用非线性激活函数。

    代码参考:

    1) https://github.com/facebookresearch/fastText

    2)  https://radimrehurek.com/gensim/models/fasttext.html

    图4:fastText模型结构示意图

    Deep Pyramid Convolutional Neural Networks for Text Categorization (ACL 2017)

    Johnson 和Zhang 提出了一种单词级别的深层CNN模型,来捕捉文本的全局语义表征,该模型在不增加太多的计算开销的情况下,通过增加网络深度可以获得最佳的性能,简称DPCNN。模型结构示意图如下所示。

    DPCNN模型首先利用“text region embedding”,将常用的word embedding 推广到包含一个或多个单词的文本区域的embedding,类似于增加一层卷积神经网络。

    然后是卷积快的叠加(两个卷积层和一个shortcut连接,其中shortcut连接类似于残差连接),与步长为2的最大池化层进行下采样。最后使用一个最大池化层,得到每个文档的文档向量。

    代码参考:

    https://github.com/Cheneng/DPCNN

    图4:DPCNN模型结构示意图

    Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm (EMNLP 2017)

    Felbo等人使用数以百万计的表情符号来学习任何领域的表情符号来检测情绪、情绪和讽刺,提出了DeepMoji模型,并取得了具有竞争性的效果。同时,DeepMoji模型在文本分类任务上也可以取得不错的结果。

    DeepMoji模型首先使用embedding层将单词映射成向量,并将每个embedding维度使用双正切函数映射到[-1,1]。然后,作者使用两层的Bi-LSTM捕捉上下文特征。接着作者提出了一种新的注意力机制,分别将embeddding层以及2层的Bi-LSTM作为输入,得到文档的向量表征。最后,将向量输入到softmax层,得到标签的概率分布。

    代码参考:

    https://github.com/bfelbo/DeepMoji

    图5:DeepMoji模型结构示意图

    Investigating Capsule Networks with Dynamic Routing for Text Classification (EMNLP 2018)

    Zhao等人提出了一种基于胶囊网络的文本分类模型,并改进了Sabour等人提出的动态路由,提出了三种稳定动态路由。模型如下所示:

    该模型首先利用标准的卷积网络,通过多个卷积滤波器提取句子的局部语义表征。然后将CNN的标量输出替换为向量输出胶囊,从而构建Primary Capsule层。接着输入到作者提出的改进的动态路由(共享机制的动态路由和非共享机制的动态路由),得到卷积胶囊层。最后将卷积胶囊层的胶囊压平,送入到全连接胶囊层,每个胶囊表示属于每个类别的概率。

     

    代码参考:

    https://github.com/andyweizhao/capsule_text_classification.

     

    图6:文本分类的胶囊网络体系结构

    Sentiment Analysis by Capsules (WWW 2018)

    Wang等人提出了一种用于情感分类的RNN胶囊网络模型,简称RNN-Capsule。(这篇文章在可视化方面做的还是不错的)模型结构示意图如下所示。

    RNN-Capsule首先使用RNN捕捉文本上下文信息,然后将其输入到capsule结构中,该capsule结构一共由三部分组成:representation module, probability module,和reconstruction module。具体地,首先用注意力机制计算capsule 表征;然后用capsule表征计算capsule状态的概率;最后用capsule表征以及capsule状态概率重构实例的表征。

    图7: RNN-Capsule模型结构示意图

    Graph Convolutional Networks for Text Classification (AAAI 2019)

    Yao等人提出了一种基于graph convolutional networks(GCN)进行文本分类。作者构建了一个包含word节点和document节点的大型异构文本图,显式地对全局word利用co-occurrence信息进行建模,然后将文本分类问题看作是node分类问题。

    代码参考:

    https://github.com/yao8839836/text_gcn

    图7:Text GCN的模型结构

    BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (NAACL 2019)

    Google提出的BERT模型,突破了静态词向量无法解决一词多义的问题。BERT是基于语言模型的动态词向量,在自然语言处理的多项任务中取得了最优秀的结果。笔者对BERT模型进行微调,在文本分类的多个领域,诸如法律、情感等,取得了非常有竞争性的性能。

    BERT的模型架构是一个多层的双向Transformer编码器(Transformer的原理及细节可以参考 Attention is all you need)。作者采用两套参数分别生成BERTBASE模型和BERTLARGE模型(细节描述可以参考原论文),所有下游任务可以在这两套模型进行微调。

    代码参考:

    https://github.com/google-research/bert

    图8:BERT的Pre-training结构和Fine-Tuning结构

    加小编微信进深度学习自然语言处理交流群

    备注:昵称-学校(公司)-方向

    格式不对,不予通过!

    今天留言内容为:

    【day n】今天我学到了什么或者今天打算学什么。

    (至少10个字,越详细越好)

    督促自己,每天进步一丢丢!

    推荐阅读:

    一大批历史精彩文章啦

    详解Transition-based Dependency parser基于转移的依存句法解析器

    干货 | 找工作的经验总结(一)

    经验 | 初入NLP领域的一些小建议

    学术 | 如何写一篇合格的NLP论文

    干货 | 那些高产的学者都是怎样工作的?

    是时候研读一波导师的论文--一个简单有效的联合模型

    近年来NLP在法律领域的相关研究工作


    好文!在看!

    展开全文
  • 用python实现的朴素贝叶斯,部分分类正确率达到95%以上,对于部分主题敏感度不高。
  • 文本自动分类技术是信息处理领域的重要研究方向,在介绍文本分类应用以及其关键技术的同时,讨论了几种文本分类方法,并且在对这些分类方法分析的基础上,提出了一种规则和统计相结合的文本自动分类策略。...
  • 今天分享一篇关于文本分类的paper,论文来自2020ACL会议,其主要思想是:基于上下文的弱监督方法进行文本分类论文标题为:Contextualized Weak Supervision for Text Classification,论文下载链接,论文也开源了...
  • 最近,来自Snapchat、Google、NTU、Tabriz、微软等学者发表了关于《深度学习文本分类》的综述论文,42页pdf215篇参考文献,详细回顾了近年来发展起来的150多个基于深度学习的文本分类模型,并讨论了它们的技术贡献、...
  • Distributed Representations of Sentences and Documents这篇文章借鉴了word2vec的方法来训练长文本向量,如句子,段落,文档。首先随机初始化文本向量和文本中词的词...论文链接:https://cs.stanford.edu/~quocl...
  • 论文复现】使用RCNN进行文本分类

    千次阅读 2018-11-26 12:56:31
    继续之前的文本分类任务系列,前面介绍了几种:CNN,RNN,fasttext。今天的主角是RCNN 对了,顺带可以了解一下RNN与CNN在NLP中的区别于共同点,这个问题在昨天面试中也被问到了。这也是今天这篇论文提出的原因之一吧...
  • 文本分类-text classification 推荐论文

    千次阅读 2020-04-19 11:56:11
    文本分类论文一览表 文章题目 发表年限 杂志 网络结构 创新点 多标签文本分类一览表 ...
  • 论文复现】使用RNN进行文本分类

    千次阅读 2018-11-18 15:37:43
    复现的论文是2016年复旦大学IJCAI 上的发表的关于循环神经网络在多任务文本分类上的应用:Recurrent Neural Network for Text Classification with Multi-Task Learning 下面提及的代码可以在github中查看:...
  • 50000条新闻文本数据集,文本有9类。可用于文本分类模型训练。
  • GCN 图卷积神经网络中 text_gcn 文本分类论文的源码,逐行注释版本
  • 数据增强是通过转换为机器学习人工创建训练数据,是机器学习学科中一个广泛研究的研究领域。虽然它对于提高模型的泛化能力很有用,但它也可以解决许多其他挑战和问题,从克服有限数量的训练数据到规范目标到限制数据...
  • 文本分类论文(2),知网上下的。 给大家分享一下,如果影响到其他人,请通知我。
  • SVM分类算法处理高维数据具有较大优势,但其未考虑语义的相似性度量问题,而LDA主题模型可以解决传统的文本分类中相似性度量和主题单一性问题。为了充分结合SVM和LDA算法的优势并提高分类精确度,提出了一种新的LDA-...
  • 层次式文本分类的Naïve Bayes改进方法,张博锋,苏金树,Naïve Bayes方法在文本分类中的决策强烈依赖于主观选择的样本关于类别的分布。利用层次式分类的特点并引入概率条件改进naïve Bay
  • 基于机器学习的文本情感分类研究 详细算法文档,pdf格式,高清扫描版 >120页,内容比较详细,需要一定理论功底。
  • 基于不同文本表示协同训练的半监督文本分类算法,邓攀晓,罗涛,在半监督文本分类任务中,协同训练算法从差异化的特征空间角度出发,借助监督分类器的优势,取得了不错的成果。然而,从文本自身
  • 基于朴素贝叶斯分类器的文本分类程序 python
  • 基于Bert模型,在6份英文语料和1份中文预料上(包括情感分析、问题分类和主题分类),进行了翔实的文本分类效果对比实验结果,虽然fine-tune的最终效果取决于具体的task,但文中采用的思路和策略仍值得学习和尝试。...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 40,987
精华内容 16,394
关键字:

文本分类论文