精华内容
下载资源
问答
  • 采用背景词汇聚类及主题词联想的方式将主题词 扩充到待分析文本之外,尝试挖掘文本的主题内涵。模型拟合基于快速 Gibbs 抽样算法进行。实验结果表明,快速 Gibbs 算法的速度约比 传统 Gibbs 算法高 5 倍,准确率和...
  • LDA主题词模型

    万次阅读 2016-06-07 17:55:28
    最终确定去360做安全网关部分的自然语言处理环节,...LDA主题词模型探析 参考博主:http://www.tuicool.com/articles/E7RVFzU 内容再自行整理得来,侵权删。 LDA是什么?  LDA(Latent Dirichlet Allocation 文档

    最终确定去360做安全网关部分的自然语言处理环节,在此感谢360和马主管的赏识!未来2个月的学习内容应该跟NLP和C++密切相关。


    LDA主题词模型探析

    参考博主:http://www.tuicool.com/articles/E7RVFzU  内容再自行整理得来,侵权删。


    LDA是什么?

        LDA(Latent Dirichlet Allocation 文档主体生模型)是一种文档主体生成模型,也成为一个三层贝叶斯概率模型,包含词、主体、文档这三层结构。所谓生成模型,就是说,一篇文章的每个词都是通过以一定的概率选择了一个主题,并从这个主题中以一定的概率选择这个词语这个一个过程得到的。

        LDA是一种非监督学习技术,可用来识别海量文档中潜藏的主题信息。它采用了词袋(bag of words)的方法,这个方法将一个文档识别成一个词频向量,将文字信息转化成数学信息。


    LDA作用

        传统判断两个文档相似性的办法是查看两个文档共同出现的单词的多少,如TF-IDF等,但这种办法没有考虑到文字背后的语义关联,有可能两个文档说的是相似的内容但并没有词语上的交集,举个例子:

        “今天大盘挺不错啊”

        “我买进了一万股”

        可以看到上面的两个文本并没有任何词语交集,但是他们却说的都是“股票”这个话题,如果按照传统的方法看着两个文档,肯定是毫无关联的,所以在判断文档相关性的时候需要考虑一下文档的语义,主题模型是语义挖掘中比较好的手段,而LDA又是其中比较有效的模型。

        “主题”又是什么的,形象来说,主题像是一个桶,里面装了出现概率较高的单词,这些单词与这个主题有很强的相关性。这些单词是依据条件概率放进这个桶中的。

        怎样才能生成主题,对文章的主题应该如何分析,这是主题模型应该探讨的问题。

        生成模型是说,我们认为一篇文档的每个词都是通过一定概率选择了一个主题,并从这个主题中以一定概率选择某个词语,那么在某个文档中出现该词语的概率为:

     

        这个概率公式可以用矩阵来表示:

        文档-词语矩阵表示某个词语出现在某个文档中的概率;主题-词语矩阵表示某个词语在某个主题中出现的概率;文档-主题矩阵表示某个主题中出现某个文档的概率。

        给定一个文档,通过对文档进行分词,计算各个文档中每个词的词频,就可以得到左边的文档-词语矩阵。主题模型就是通过左边这个矩阵进行训练,学习出右边两个矩阵的。

        主题模型有两种,pLSA(Probabilistic Latent Semantic Analysis)和LDA,我这次主要讲LDA。


    LDA算法

    目标:生成M份包含N个单词的文档,Latent Dirichlet Allocation这篇文献中主要介绍了三种方法:


    方法一:unigram model

        该模型使用下面这种方法生成一个文档:for each of the N words w_n: choose a word w_n~p(w)

        其中N表示要生成文档中的单词个数,w_n表示生成的第n个单词w,p(w)表示单词w的分布,可以通过预料进行统计学习得到,比如给一本书,统计各个单词在书中出现的概率。

        这种方法通过训练语料获得一个单词的概率分布函数,然后根据这个概率分布函数每次生成一个单词,使用这种方法M次生成M个文档,图模型如下所示:


    方法二:Mixture of unigram

        unigram模型方法缺点是生成的文本没有文本主题,过于简单,mixture of unigram对其进行了改进,该模型使用下面方法生成一个文档:

    choose a topic z ~ p(z);

    for each of the N words w_n;

    choose a word w_n ~ p(w|z)

        其中z表示一个主题,p(z)表示主题的概率分布,z通过p(z)按概率产生;N和w_n同方法一;p(w|z)表示给定z时w的分布,可以看成是一个k×V的矩阵,k为主题个数,V为单词个数,每行表示这个主题对应的单词的概率分布,即主题z所包含的各个单词的词频,通过这个概率分布按一定概率生成每个单词。

        这个方法先选择一个主题z,主题z对应一个单词的条件概率分布p(w|z),每次按这个分布生成一个单词,使用M次生成M个文档,图模型如下:

        从图中可以看到,一个文档只允许一个主题,这显然不符合常规,因为一个文档很可能有多个主题。


    方法三:LDA(Latent Dirichlet Allocation)

        LDA方法生成的文档可以包含多个主题,该模型使用下面的方法生成一个文档:

    Chooseparameter θ ~ p(θ);

    For each ofthe N words w_n:

    Choose a topic z_n ~ p(z|θ);

    Choose a word w_n ~ p(w|z);

        其中θ是主题向量,向量的每一列表示每个主题在文档中出现的概率,该向量为非负的归一化向量;p(θ)是θ的分布,具体为Dirichiket分布,即分布的分布(这个没懂是啥意思啊,有空借本书看看,留个坑);N和w_n同上;z_n表示选择的主题,p(z|θ)表示给定θ是主题z的概率分布,具体为θ的值,即p(z=i|θ)=θ_i;p(w|z)同上。

        先选定一个主题向量θ,确定每个主题被选择的概率。然后生成每个单词的时候,从主体分布向量θ中选择一个主题z,按主题z的单词概率分布生成一个单词。图模型如下:

    LDA的联合概率为:

    拆解一下:

    LDA的三层被三种颜色表示了出来:

    1. corpus-level(红色):α和β表示语料级别的参数,也就是每个文档都一样,因此生成过程只采样一次。

    2.document-level(橙色):θ是文档级别的变量,每个文档对应一个θ,也就是每个文档产生各个主题z的概率是不同的,所有生成每个文档采样一次θ。

    3. word-level(绿色):z和w都是单词级别变量,z由θ生成,w由z和β共同生成,一个 单词w对应一个主题z。

    通过上面对LDA生成模型的讨论,可以知道LDA模型主要是从给定的输入语料中学习训练两个控制参数α和β,学习出了这两个控制参数就确定了模型,便可以用来生成文档。其中α和β分别对应以下各个信息:

    α:分布p(θ)需要一个向量参数,即Dirichlet分布的参数,用于生成一个主题θ向量;

    β:各个主题对应的单词概率分布矩阵p(w|z)。

    把 w当做观察变量,θ和z当做隐藏变量,就可以通过EM算法学习出α和β,求解过程中遇到后验概率p(θ,z|w)无法直接求解,需要找一个似然函数下界来 近似求解,原文使用基于分解(factorization)假设的变分法(varialtional inference)进行计算,用到了EM算法。每次E-step输入α和β,计算似然函数,M-step最大化这个似然函数,算出α和β,不断迭代直到 收敛。  (EM算法目前还没有学习,留坑,后续补上









    展开全文
  • 行业分类-物理装置-一种文本主题词确定方法、装置、存储介质及终端.zip
  • 主题词表是以特定的结构集合展示经过规范化处理的优选词和非优选词及其词间语义关系,作为标引和检索的术语控制工具,简单地说主题词是经过规范化的用于标引和检索的词。利用规范主题词,可以提高数据库检索效果,...

    转自:http://blog.163.com/ly7148@126/blog/static/16646527620162121145415/

    主题词表是以特定的结构集合展示经过规范化处理的优选词和非优选词及其词间语义关系,作为标引和检索的术语控制工具,简单地说主题词是经过规范化的用于标引和检索的词。利用规范主题词,可以提高数据库检索效果,提高查准率和查全率。

    主题词表自诞生以来得到了很好的应用。例如,EI主题词表支撑Engineering Village文献平台的检索、浏览等功能,因此在向EI期刊投稿时,论文作者常常会被要求文章的关键词至少有1个或2-3个必须是EI主题词表中的,这是EI数据库对所选刊进行关键词规范控制,是便于对数据库检索的需要。也就是说,如果你文章的关键词不是受控词的话,很可能在EI数据库中检索不到。那么,如何来利用EI主题词表来确定规范的关键词呢?

    1首先对你的文章进行主题分析,选出若干个能够表达文章主题的英文关键词,注意:这时你所选取的关键词是未经规范的自然语词,还不是可直接使用的规范词,需要以这些词为基础,进一步查询EI主题词表才可确定是否可采用,若是规范主题词就可直接采用,若不是规范词则通过词表查出Use中列出的相对应的受控主题词,方可选用。
        2
    登录EI数据库,选择点击“Browse Indexes”中的“Controlled term”,控制词表就会出现。控制词表按学科类别字母序排列,使用起来非常方便。可以直接按字母浏览或者直接检索哪些是受控词。“Controlled term”,它是Ei工作人员在对所收录的文章进行主题分类后给出的规范词。

     

    [原创]选用EI主题词的查询方法 - lucy - lucy 的博客

    3除了查询主题词表,还可以利用EI的“Thesaurus Search”,检索(Search):输入主题词,可通过查找索引来获得准确的主题词。检索结果除了提供输入了的检索词外,还提供相关概念词(related terms)。参考这一检索功能所提供的相似词或相关词,来确定你的受控主题词。

    [原创]选用EI主题词的查询方法 - lucy - lucy 的博客

      

    例如:在检索框中输入检索词“protein,可以浏览所显示的该词前后按字顺排列的几个受控词。

    [原创]选用EI主题词的查询方法 - lucy - lucy 的博客

     

    展开全文
  • 主题词生成&可视化 LDA主题聚类 这是NLP中常用的一类方法,一般Sklearn,genism里有可以实现。一般结果会有文档-主题model(即说明每个文档属于某类主题的概率),概率最大则说明该文档属于该类别。以及主题-...

    【NLP】文本LDA主题聚类&主题词生成&可视化

    LDA主题聚类

    这是NLP中常用的一类方法,一般Sklearn,genism里有可以实现。一般结果会有文档-主题model(即说明每个文档属于某类主题的概率),概率最大则说明该文档属于该类别。以及主题-词语model,可以给出每个主题的前N个词。

    主要部分代码:

    from sklearn.feature_extraction.text import TfidfTransformer
    from sklearn.feature_extraction.text import CountVectorizer
    import numpy as np
    import lda
    
    vectorizer = CountVectorizer(min_df=10, stop_words=stopwords)  # 定义计数器
    transformer = TfidfTransformer()  # 该类会统计每个词语的tf-idf权值
    tf = vectorizer.fit_transform(documents)  # 计算TF
    tfidf = transformer.fit_transform(tf)  # fit_transform计算tf-idf,fit_transform将文本转为词频矩阵
    vocab = vectorizer.get_feature_names()
    
    model = lda.LDA(n_topics=5, n_iter=150, random_state=1)
    model.fit(tf)
    topic_words = model.topic_word_
    # 显示每个话题的前10词
    n = 10
    topickey=[]
    for i, t in enumerate(topic_words):
        topicwords = np.array(vocab)[np.argsort(-t)][:n]
        print('*Topic {}\n- {}'.format(i+1, ' '.join(topicwords)))
        topickey.append(','.join(topicwords))
    print(topickey)
    
    # 显示前10个文本的前K个话题
    k = 1
    doc_topic = model.doc_topic_
    print(model.doc_topic_)
    for i in range(194):
        topic_most_pr = doc_topic[i].argsort()[::-1]
        print("doc: {} topic: {}".format(textnames[i], topic_most_pr[:k][0]+1))
      # 如果k不等于1,上面topic_most_pr[:k][0]换成topic_most_pr[:k]
    

    这里对于爬取的一些知乎关于疫情的评论数据进行结果示意:
    (1)每一类的主题词:
    在这里插入图片描述
    (2)每一条评论属于哪一类(取概率最大的一类)
    解释下图1:比如矩阵的第一个列表就是文档0分别属于(设置分5类)各类的概率,可见属于第3类概率最大。(类别为了好记已经全加1,从第1类开始)
    可见图2:输出最大概率的类,结果的确是类3
    在这里插入图片描述
    在这里插入图片描述

    Pyldavis进行可视化

    这部分是由于在评估聚类效果的时候,不确定类别是否重叠,因此用pyldavis这个可以对LDA进行可视化的包。
    先用sklearn LDA进行运行,再利用PyLdavis可视化。
    划分的4类最合适,划分5类及以上有重叠情况:
    在这里插入图片描述
    在这里插入图片描述
    代码里特征数需要注意,这个数值会影响聚类结果和右侧的词频分布。(实验中发现)
    在这里插入图片描述
    一些中间结果:
    在这里插入图片描述
    在这里插入图片描述2020-02-09 By EchoZhang

    展开全文
  • NLP自然语言处理系列——LDA主题词模型探析 时间 2015-06-17 22:39:57 十一城elevencitys.com 原文 http://elevencitys.com/2015/06/nlp自然语言处理系列-lda主题词模型探析/ 主题 LDA (一)LDA...

    NLP自然语言处理系列——LDA主题词模型探析

    (一)LDA作用

    传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。

    举个例子,有两个句子分别如下:

    “乔布斯离我们而去了。”

    “苹果价格会不会降?”

    可以看到上面这两个句子没有共同出现的单词,但这两个句子是相似的,如果按传统的方法判断这两个句子肯定不相似,所以在判断文档相关性的时候需要考虑到文档的语义,而语义挖掘的利器是主题模型,LDA就是其中一种比较有效的模型。

    在主题模型中,主题表示一个概念、一个方面,表现为一系列相关的单词,是这些单词的条件概率。形象来说,主题就是一个桶,里面装了出现概率较高的单词,这些单词与这个主题有很强的相关性。

    怎样才能生成主题?对文章的主题应该怎么分析?这是主题模型要解决的问题。

    首先,可以用生成模型来看文档和主题这两件事。所谓生成模型,就是说,我们认为 一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语” 这样一个过程得到的。那么,如果我们要生成一篇文档,它里面的每个词语出现的概率为:

    这个概率公式可以用矩阵表示:

    其中”文档-词语”矩阵表示每个文档中每个单词的词频,即出现的概率;”主题-词语”矩阵表示每个主题中每个单词的出现概率;”文档-主题”矩阵表示每个文档中每个主题出现的概率。

    给定一系列文档,通过对文档进行分词,计算各个文档中每个单词的词频就可以得到左边这边”文档-词语”矩阵。主题模型就是通过左边这个矩阵进行训练,学习出右边两个矩阵。

    主题模型有两种:pLSA(ProbabilisticLatent Semantic Analysis)和LDA(Latent Dirichlet Allocation),下面主要介绍LDA。

    (二)LDA介绍

    如何生成M份包含N个单词的文档,LatentDirichlet Allocation这篇文章介绍了3方法:

    方法一:unigram model

    该模型使用下面方法生成1个文档:

    For each ofthe N words w_n:Choose a word w_n ~ p(w);

    其中N表示要生成的文档的单词的个数,w_n表示生成的第n个单词w,p(w)表示单词w的分布,可以通过语料进行统计学习得到,比如给一本书,统计各个单词在书中出现的概率。

    这种方法通过训练语料获得一个单词的概率分布函数,然后根据这个概率分布函数每次生成一个单词,使用这个方法M次生成M个文档。其图模型如下图所示:

    方法二:Mixture of unigram

    unigram模型的方法的缺点就是生成的文本没有主题,过于简单,mixture of unigram方法对其进行了改进,该模型使用下面方法生成1个文档:

    Choose a topicz ~ p(z);

    For each ofthe N words w_n:

    Choose a word w_n ~ p(w|z);

    其 中z表示一个主题,p(z)表示主题的概率分布,z通过p(z)按概率产生;N和w_n同上;p(w|z)表示给定z时w的分布,可以看成一个k×V的矩 阵,k为主题的个数,V为单词的个数,每行表示这个主题对应的单词的概率分布,即主题z所包含的各个单词的概率,通过这个概率分布按一定概率生成每个单 词。

    这种方法首先选选定一个主题z,主题z对应一个单词的概率分布p(w|z),每次按这个分布生成一个单词,使用M次这个方法生成M份不同的文档。其图模型如下图所示:

    从上图可以看出,z在w所在的长方形外面,表示z生成一份N个单词的文档时主题z只生成一次,即只允许一个文档只有一个主题,这不太符合常规情况,通常一个文档可能包含多个主题。

    方法三:LDA(Latent Dirichlet Allocation)

    LDA方法使生成的文档可以包含多个主题,该模型使用下面方法生成1个文档:

    Chooseparameter θ ~ p(θ);

    For each ofthe N words w_n:

    Choose a topic z_n ~ p(z|θ);

    Choose a word w_n ~ p(w|z);

    其 中θ是一个主题向量,向量的每一列表示每个主题在文档出现的概率,该向量为非负归一化向量;p(θ)是θ的分布,具体为Dirichlet分布,即分布的 分布;N和w_n同上;z_n表示选择的主题,p(z|θ)表示给定θ时主题z的概率分布,具体为θ的值,即p(z=i|θ)= θ_i;p(w|z)同上。

    这种方法首先选定一个主题向量θ,确定每个主题被选择的概率。然后在生成每个单词的时候,从主题分布向量θ中选择一个主题z,按主题z的单词概率分布生成一个单词。其图模型如下图所示:

    从上图可知LDA的联合概率为:

    把上面的式子对应到图上,可以大致按下图理解:

    从上图可以看出,LDA的三个表示层被三种颜色表示出来:

    1. corpus-level(红色):α和β表示语料级别的参数,也就是每个文档都一样,因此生成过程只采样一次。

    2.document-level(橙色):θ是文档级别的变量,每个文档对应一个θ,也就是每个文档产生各个主题z的概率是不同的,所有生成每个文档采样一次θ。

    3. word-level(绿色):z和w都是单词级别变量,z由θ生成,w由z和β共同生成,一个 单词w对应一个主题z。

    通过上面对LDA生成模型的讨论,可以知道LDA模型主要是从给定的输入语料中学习训练两个控制参数α和β,学习出了这两个控制参数就确定了模型,便可以用来生成文档。其中α和β分别对应以下各个信息:

    α:分布p(θ)需要一个向量参数,即Dirichlet分布的参数,用于生成一个主题θ向量;

    β:各个主题对应的单词概率分布矩阵p(w|z)。

    把 w当做观察变量,θ和z当做隐藏变量,就可以通过EM算法学习出α和β,求解过程中遇到后验概率p(θ,z|w)无法直接求解,需要找一个似然函数下界来 近似求解,原文使用基于分解(factorization)假设的变分法(varialtional inference)进行计算,用到了EM算法。每次E-step输入α和β,计算似然函数,M-step最大化这个似然函数,算出α和β,不断迭代直到 收敛。

    参考文献:

    David M. Blei, AndrewY. Ng, Michael I. Jordan, LatentDirichlet Allocation , Journal of Machine Learning Research 3, p993-1022,2003

    【JMLR’03】Latent Dirichlet Allocation (LDA)- David M.Blei

    搜索背后的奥秘——浅谈语义主题计算

    http://bbs.byr.cn/#!article/PR_AI/2530?p=1

    部分原文链接:http://blog.csdn.net/huagong_adu/article/details/7937616

    展开全文
  • 确定关健词之间重要性的差异时,不是简单地运用线性法,也不是将所有的重要性差异笼统地用同一函数来表示,它通过成对比较,真正个性化地刻画了任意两个关于主题的重要性差异,较好地满足了关健词权重的确定要求。
  • 摘 要 介绍了在中文全文检索系统中实现主题词标引的思路及具体实现过程、各种词表的构造及更新方法和措施、基于主题词标引的优化检索功能等。关键词 主题词标引 全文检索 关键词标引 主题词表  主题标引技术...
  • MARC-鼠标人类研究分类器 问题 在2010年PNAS生物医学杂志上发表的一项研究中,一组研究人员研究了小鼠和人类之间转录React的相关性。 研究人员研究了三种不同的... 医学主题词:这是统一的医学词汇,可以对PubMed中的
  • MOne基于包的无监督多主题得分 1 开源的今日头条 又开源了一个某机构整理的今日头条数据,可见:今日头条中文新闻文本(多层)分类数据集 本数据集有1000+分类,2914000条数据,虽然没有放开正文,但是也是非常好...
  • 前言 一个人无论是求职也好,晋升也罢,成功率和简历的质量强相关。因此,你哪怕有多么不愿意写作,最起码也...注意用词:在简历中要用好主题词。(多用名词,少用形容词) I 、四点忌讳 1.1.切忌把小成绩当大成就夸 有些
  • 数仓建模主题划分 在我对主题建模的持续探索中,我遇到了The Programming Historian... 我不确定要选择什么值,但是作者提出以下建议: 您如何知道要搜索的主题数? 话题自然吗? 我们发现,必须运行带有不同...
  • LDA主题模型主题数的确定 折肘法+困惑度确定lda模型的主题个数 背景 lda topic model需要确定从每篇文章中提取多少个关键词,最简单的就是折肘法+困惑度的方法。 补充:还是懒得说背景!以后想起来再补充!还是电脑...
  • 这部分参照:LDA主题模型评估方法–Perplexity,不过后面发现这篇文章Perplexity(困惑度)感觉写的更好一点,两篇都是翻译的维基百科。  perplexity是一种信息理论的测量方法,b的perplexity值定义为基于b...
  • 主题模型

    千次阅读 2018-06-13 16:17:54
     是一种常用的简单的主题模型。LSA是基于奇异值分解(SVD)的方 法得到文本主题的一种方式。我们输入的有m个文本,每个文本有n个。而Aij则对应第i个文本的第j个的特征值。k是我们假设的主题数,一般要比文本数少...
  • 聚类分析

    万次阅读 2017-09-28 14:17:00
    共现聚类分析法,通过文献计量和聚类统计的方法,计算主题词之间的联系密切程度(在同一篇文献共同出现的频率),将距离较近的主题词聚集在一起,形成一个个概念相互独立的类团,使得类团内属性相似性最大,类团间...
  • LDA主题模型

    千次阅读 2019-06-04 11:29:45
    LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,这个模型包含了主题和文档三层结构。所谓的生成模型,就是说我们人为一篇文章的每个都是通过 “以一定概率选择了某个主题,并从这个主题中以一定...
  • 如何确定LDA的主题个数

    千次阅读 2017-03-30 16:55:00
     LDA中topic个数的确定是一个困难的问题。  当各个topic之间的相似度的最小的时候,就可以算是找到了合适的topic个数。  参考一种基于密度的自适应最优LDA模型选择方法 ,简略过程如下: 选取初始K值,得到...
  • 通俗理解LDA主题模型

    万次阅读 多人点赞 2014-11-17 16:11:58
    通俗理解LDA主题模型 0 前言 印象中,最开始听说“LDA”这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印过一次,但不知是因为这篇文档的...
  • 分析

    万次阅读 多人点赞 2017-10-16 11:01:09
    一种揭示或表达文献核心内容的关键主题词在某一研究领域文献中出现的频次高低来确定该领域研究热点和发展动向的文献计量法,通常将共现聚类和共词词频分析相互结合。 (5)突发词监测法 关注焦点词相对增长率...
  • nlp中的主题模型

    2021-01-27 11:16:52
    生成主题z和w的过程遵照一个确定的概率分布。设在文章d中生成主题z的概率为[公式],在选定主题的条件下生成w的概率为 [公式],则给定文章d,生成w的概率可以写成: LDA可以看作是pLSA的贝叶斯版本,其文本生成...
  • 利用LDA 和Word2Vec 模型得出包含主题词概率信息及词义相关性的T-WV 矩 阵, 并将传统LDA 模型的主题数目选择问题转化为聚类效果评价问题, 以内部指标F 统计量作为目标函数,计算主题聚类数目的最优解, 并对新旧两种...
  • LDA文档主题生成模型

    千次阅读 2015-12-08 16:39:34
    LDA: latent dirichlet allocation ,又名潜在狄利克雷分布,是非监督机器学习技术,用于识别文档集中潜在的主题词信息。 主要思想:采用词袋方法,将每一篇文档视为词频向量,将文本信息转换为数字信息,没有考虑...
  • 调研笔记

    千次阅读 2016-11-17 16:51:48
    百科上对热的定义如下:热就是热门词汇,热反映了某些区域的人们在某个时期普遍关注的问题和事物,具有时代特征,对热进行快速识别和定向跟踪,可以快速地了解民情、了解社会动态和发展趋势,更快捷更准确地...
  • 嵌入计算文本相似度
  • 这次我来展示下它的7个“变种”(短文本、细粒度、加入先验知识、作者写作偏好、主题内涵随时间的变迁、融入嵌入特性、语言模型加持):Biterm Topic ModelMulti-Grain Topic ModelTopic Modeling with Minimal ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 40,498
精华内容 16,199
关键字:

如何确定主题词