精华内容
下载资源
问答
  • 1 关于主题模型使用LDA做推荐已经有一段时间了,LDA的推导过程反复看过很多遍,今天有点理顺的感觉,就先写一版。 隐含狄利克雷分布简称LDA(latent dirichlet allocation),是主题模型(topic model)的一种,由...

    1 关于主题模型

    使用LDA做推荐已经有一段时间了,LDA的推导过程反复看过很多遍,今天有点理顺的感觉,就先写一版。

    • 隐含狄利克雷分布简称LDA(latent dirichlet allocation),是主题模型(topic model)的一种,由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出。 主题模型属于聚类方法,是一种无监督的学习方法。
    • 与通常的tf-idf相比,主题模型重在可以在语义上计算文本内容的相关性。主题模型是一种词袋模型,即只考虑文本总的词频,不考虑顺序。
    • 假设依据是一篇文本以一定的概率属于多个主题(概率相加为1),一个词也以一定的概率属于多个主题(一个词可能以不同的概率属于不同的主题)。
    • 参数的先验
      topic-word分布受一个参数为α的对称Dirichlet约束
      doc-topic分布受一个参数为β的对称Dirichlet约束

    2 频率学派与贝叶斯学派

    这里简单介绍频率学派和贝叶斯学派,因为PLSA和LDA分别用的是这两种学派的思想。

    • 直至今日,关于统计推断的主张和想法,大体可以纳入到两个体系之内,其一叫频率学派,其特征是把需要推断的参数θ视作固定且未知的常数,而样本X是随机的,其着眼点在样本空间,有关的概率计算都是针对X的分布。另一派叫做贝叶斯学派,他们把参数θ视作随机变量,而样本X是固定的,其着眼点在参数空间,重视参数θ的分布,固定的操作模式是通过参数的先验分布结合样本信息得到参数的后验分布。

    以抛硬币为例,正面朝上的概率是待求的参数。

    • 往小处说,频率派认为参数是客观存在,不会改变,虽然未知,但却是固定值;贝叶斯派则认为参数是随机值,因为没有观察到,那么和是一个随机数也没有什么区别,因此参数也可以有分布。
    • 往大处说,频率派最常关心的是似然函数,而贝叶斯派最常关心的是后验分布。我们会发现,后验分布其实就是似然函数乘以先验分布再normalize一下使其积分到1。因此两者的很多方法都是相通的。贝叶斯派因为所有的参数都是随机变量,都有分布,因此可以使用一些基于采样的方法(如MCMC)使得我们更容易构建复杂模型。频率派的优点则是没有假设一个先验分布,因此更加客观,也更加无偏。
    • 例如,概率学派可能任务抛硬币证明朝上的概率就是0.5;而贝叶斯学派先取得一个先验概率,在通过做试验观察,结合先验概率和观察结果得出一个后验概率,这个后验概率才是硬币证明朝上的概率,后验概率本身也符合某种分布。
    • LDA是三层贝叶斯模型。 简单的说,一篇文章可以以不同的概率属于多个主题,但分别以多大的概率属于这些主题呢?例如文章A可以是{‘科技’:0.5, ‘体育’:0.2, ‘财经’:0.3}这种分布, 也可能是{‘科技’:0.4, ‘体育’:0.4, ‘财经’:0.2}这种分布. 贝叶斯学派认为这个分布也服从一定分布,这里用的就是狄利克雷分布,即它在LDA中其实是一个分布的分布。并且,LDA用到两次Dilichlet:一个主题中词的概率分布也服从狄利克雷分布。

    3 PLSA与LDA

    介绍PLSA和LDA两种生产模型。

    3.1 PLSA

    3.1.1 举个生成文本的例子

    一篇文章往往有多个主题,只是这多个主题各自在文档中出现的概率大小不一样。比如介绍一个国家的文档中,往往会分别从教育、经济、交通等多个主题进行介绍。那么在pLSA中,文档是怎样被生成的呢?
    假设你要写M篇文档,由于一篇文档由各个不同的词组成,所以你需要确定每篇文档里每个位置上的词。
    再假定你一共有K个可选的主题,有V个可选的词,咱们来玩一个扔骰子的游戏。

    1. 假设你每写一篇文档会制作一颗K面的“文档-主题”骰子(扔此骰子能得到K个主题中的任意一个),和K个V面的“主题-词项” 骰子(每个骰子对应一个主题,K个骰子对应之前的K个主题,且骰子的每一面对应要选择的词项,V个面对应着V个可选的词)。
      比如可令K=3,即制作1个含有3个主题的“文档-主题”骰子,这3个主题可以是:教育、经济、交通。然后令V = 3,制作3个有着3面的“主题-词项”骰子,其中,教育主题骰子的3个面上的词可以是:大学、老师、课程,经济主题骰子的3个面上的词可以是:市场、企业、金融,交通主题骰子的3个面上的词可以是:高铁、汽车、飞机。
    2. 每写一个词,先扔该“文档-主题”骰子选择主题,得到主题的结果后,使用和主题结果对应的那颗“主题-词项”骰子,扔该骰子选择要写的词。
      先扔“文档-主题”的骰子,假设(以一定的概率)得到的主题是教育,所以下一步便是扔教育主题筛子,(以一定的概率)得到教育主题筛子对应的某个词:大学。
      上面这个投骰子产生词的过程简化下便是:“先以一定的概率选取主题,再以一定的概率选取词”。事实上,一开始可供选择的主题有3个:教育、经济、交通,那为何偏偏选取教育这个主题呢?其实是随机选取的,只是这个随机遵循一定的概率分布。比如可能选取教育主题的概率是0.5,选取经济主题的概率是0.3,选取交通主题的概率是0.2,那么这3个主题的概率分布便是{教育:0.5,经济:0.3,交通:0.2},我们把各个主题z在文档d中出现的概率分布称之为主题分布,且是一个多项分布。
      同样的,从主题分布中随机抽取出教育主题后,依然面对着3个词:大学、老师、课程,这3个词都可能被选中,但它们被选中的概率也是不一样的。比如大学这个词被选中的概率是0.5,老师这个词被选中的概率是0.3,课程被选中的概率是0.2,那么这3个词的概率分布便是{大学:0.5,老师:0.3,课程:0.2},我们把各个词语w在主题z下出现的概率分布称之为词分布,这个词分布也是一个多项分布。
      所以,选主题和选词都是两个随机的过程,先从主题分布{教育:0.5,经济:0.3,交通:0.2}中抽取出主题:教育,然后从该主题对应的词分布{大学:0.5,老师:0.3,课程:0.2}中抽取出词:大学。
      这里写图片描述
    3. 最后,你不停的重复扔“文档-主题”骰子和”主题-词项“骰子,重复N次(产生N个词),完成一篇文档,重复这产生一篇文档的方法M次,则完成M篇文档。

    3.1.2 流程总结

    pLSA中生成文档的整个过程便是选定文档生成主题,确定主题生成词:
    这里写图片描述

    1. 按照概率这里写图片描述选择一篇文档这里写图片描述
    2. 选定文档这里写图片描述后,从主题分布中按照概率这里写图片描述选择一个隐含的主题类别这里写图片描述
    3. 这里写图片描述选定后,从词分布中按照概率这里写图片描述选择一个词这里写图片描述

    如下图所示(图中被涂色的d、w表示可观测变量,未被涂色的z表示未知的隐变量,N表示一篇文档中总共N个单词,M表示M篇文档):
    这里写图片描述

    上图中,文档d和词w是我们得到的样本(样本随机,参数虽未知但固定,所以pLSA属于频率派思想。区别于下文要介绍的LDA中:样本固定,参数未知但不固定,是个随机变量,服从一定的分布,所以LDA属于贝叶斯派思想),可观测得到,所以对于任意一篇文档,其这里写图片描述是已知的。

    从而可以根据大量已知的文档-词项这里写图片描述信息,训练出文档-主题这里写图片描述和主题-词项这里写图片描述,如下公式所示:
    这里写图片描述
    故得到文档中每个词的生成概率为:
    这里写图片描述
    由于可事先计算求出这里写图片描述,而这里写图片描述这里写图片描述未知,所以就是我们要估计的这里写图片描述参数(值),通俗点说,就是要最大化这个θ。

    用什么方法进行估计呢,常用的参数估计方法有极大似然估计MLE、最大后验证估计MAP、贝叶斯估计等等。因为该待估计的参数中含有隐变量z,所以我们可以考虑EM算法。 本文不展开介绍。

    3.2 LDA

    LDA就是在pLSA的基础上加层贝叶斯框架。pLSA样本随机,参数虽未知但固定,属于频率派思想;而LDA样本固定,参数未知但不固定,是个随机变量,服从一定的分布,LDA属于贝叶斯派思想。 这里的参数是指文档的主题分布、主题的词分布。

    3.2.1 LDA流程

    LDA流程

    从上图可以看出,lda中,依据Dirichlet采样到了不同的文档-主题分布和主题-词分布。
    

    这里写图片描述

    • Boxed:
      K is the number of topics
      N is the number of words in the document
      M is the number of documents to analyse
    • α is the Dirichlet-prior concentration parameter of the per-document topic distribution
    • β is the same parameter of the per-topic word distribution
    • φ(k) is the word distribution for topic k
    • θ(i) is the topic distribution for document i
    • z(i,j) is the topic assignment for w(i,j)
    • w(i,j) is the j-th word in the i-th document
    • φ and θ are Dirichlet distributions, z and w are multinomials.
      生成文本的过程:

    LDA模型中一篇文档生成的方式:

    1. 按照先验概率这里写图片描述选择一篇文档这里写图片描述
    2. 从狄利克雷分布α中取样生成文档这里写图片描述的主题分布这里写图片描述,换言之,主题分布这里写图片描述由超参数为α的Dirichlet分布生成
    3. 从主题的多项式分布这里写图片描述中取样生成文档这里写图片描述第 j 个词的主题这里写图片描述
    4. 从狄利克雷分布(即Dirichlet分布)β中取样生成主题这里写图片描述
      对应的词语分布这里写图片描述,换言之,词语分布这里写图片描述由参数为β的Dirichlet分布生成
    5. 从词语的多项式分布这里写图片描述中采样最终生成词语 这里写图片描述

    3.2.2 Gibbs LDA

    前面已经介绍了LDA流程,最终的目标函数是个联合概率。待求的doc-topic和topic-word两个矩阵,是借助上述流程中的这里写图片描述求得的。gibbs sample就是用来求这个两个概率矩阵的方法。 具体步骤再另一篇介绍采样和变分的文章中再做介绍。

    4 在推荐算法中的应用

    这里写图片描述

    步骤:
    1. 离线求的模型
    2. 用模型对新文本预测topic,取topic概率带到阈值(例如0.2)且topN个topic,例如doc1 :topic1:0.5, topic2:0.2
    3. 用户点击doc1,就说明用户对topic1和topic2感兴趣,保存用户新闻分析结果,以待推荐

    参考

    https://www.douban.com/group/topic/16719644/
    http://blog.csdn.net/v_july_v/article/details/41209515
    http://blog.csdn.net/pipisorry/article/details/42649657

    展开全文
  • Hexo博客主题应用

    千次阅读 2017-05-03 14:46:35
    我这里以yilia为例为大家介绍主题应用。 然后在网上找到自己喜欢的主题。我这里给大家推荐这个还是很不错的哦。 yilia预览:yilia yilia代码库:yilia Hexo官网的其他主题:Hexo theme 1.首先我们找到自己本地的...

    关于如何搭建Github Pages博客我已经介绍了。

    如果不了解的或者想了解博主所写的东西,可以来我看我得另一篇博客:如何使用Hexo建立自己的Github Pages博客

    我这里以yilia为例为大家介绍主题的应用。

    然后在网上找到自己喜欢的主题。我这里给大家推荐这个还是很不错的哦。

    yilia预览:yilia

    yilia代码库:yilia

    Hexo官网的其他主题:Hexo

    1.首先我们找到自己本地的Hexo文件夹下。

    然后右键Git Bash Here


    $ git clone https://github.com/litten/hexo-theme-yilia themes/yilia


    通过以上命令我们把相应的主题下载到自己的hexo主题里边来。

    2.修改配置文件

    修改博客目录E:\hexo\_config.yml中的theme属性,将其设置为yilia。

    3.找到主题对应下边的配置文件,然后修改相应信息。

    4.生成目录,在E:\hexo目录下运行

    npm i hexo-generator-json-content --save


    然后在主题下边的配置文件加入以下代码

    jsonContent:
      meta: false
      pages: false
      posts:
        title: true
        date: true
        path: true
        text: true
        raw: false
        content: false
        slug: false
        updated: false
        comments: false
        link: false
        permalink: false
        excerpt: false
        categories: false
        tags: true

    就可以正常的显示目录了。

    展开全文
  • 应用推荐系统 在使用LDA(Latent Dirichlet Allocation)计算物品的内容相似度时,我们可以先计算出物品在话题上的分布,然后利用两个物品的话题分布计算物品的相似度。比如,如果两个物品的话题分布相似,则认为两...

    http://blog.csdn.net/pipisorry/article/details/45665779

    主题模型LDA的应用

    拿到这些topic后继续后面的这些应用怎么做呢:
    除了推断出这些主题,LDA还可以推断每篇文章在主题上的分布。例如,X文章大概有60%在讨论“空间探索”,30%关于“电脑”,10%关于其他主题。


    这些主题分布可以有多种用途:
    聚类: 主题是聚类中心,文章和多个类簇(主题)关联。聚类对整理和总结文章集合很有帮助。参看Blei教授和Lafferty教授对于Science杂志的文章生成的总结。点击一个主题,看到该主题下一系列文章。
    特征生成:LDA可以生成特征供其他机器学习算法使用。如前所述,LDA为每一篇文章推断一个主题分布;K个主题即是K个数值特征。这些特征可以被用在像逻辑回归或者决策树这样的算法中用于预测任务。
    降维:每篇文章在主题上的分布提供了一个文章的简洁总结。在这个降维了的特征空间中进行文章比较,比在原始的词汇的特征空间中更有意义。

    排序:The very best ways to sort large databases of unstructured text is to use a technique called Latent Dirichlet allocation (LDA).

    皮皮blog



    应用于推荐系统

    在使用LDA(Latent Dirichlet Allocation)计算物品的内容相似度时,我们可以先计算出物品在话题上的分布,然后利用两个物品的话题分布计算物品的相似度。比如,如果两个物品的话题分布相似,则认为两个物品具有较高的相似度,反之则认为两个物品的相似度较低。计算分布的相似度可以利用KL散度来计算:
    DKL(p||q)=∑i∈Xp(i)ln(p(i)/q(i),其中p和q是两个分布,KL散度越大说明分布的相似度越低。

    [基于主题模型的学术论文推荐系统研究]


    隐语义模型LFM和LSI,LDA,Topic Model其实都属于隐含语义分析技术,是一类概念,他们在本质上是相通的,都是找出潜在的主题或分类。这些技术一开始都是在文本挖掘领域中提出来的,近些年它们也被不断应用到其他领域中,并得到了不错的应用效果。比如,在推荐系统中它能够基于用户的行为对item进行自动聚类,也就是把item划分到不同类别/主题,这些主题/类别可以理解为用户的兴趣。

    对于一个用户来说,他们可能有不同的兴趣。就以作者举的豆瓣书单的例子来说,用户A会关注数学,历史,计算机方面的书,用户B喜欢机器学习,编程语言,离散数学方面的书, 用户C喜欢大师Knuth, Jiawei Han等人的著作。那我们在推荐的时候,肯定是向用户推荐他感兴趣的类别下的图书。那么前提是我们要对所有item(图书)进行分类。那如何分呢?大家注意到没有,分类标准这个东西是因人而异的,每个用户的想法都不一样。拿B用户来说,他喜欢的三个类别其实都可以算作是计算机方面的书籍,也就是说B的分类粒度要比A小;拿离散数学来讲,他既可以算作数学,也可当做计算机方面的类别,也就是说有些item不能简单的将其划归到确定的单一类别;拿C用户来说,他倾向的是书的作者,只看某几个特定作者的书,那么跟A,B相比它的分类角度就完全不同了。

    显然我们不能靠由单个人(编辑)或team的主观想法建立起来的分类标准对整个平台用户喜好进行标准化。

    此外我们还需要注意的两个问题:

    1. 我们在可见的用户书单中归结出3个类别,不等于该用户就只喜欢这3类,对其他类别的书就一点兴趣也没有。也就是说,我们需要了解用户对于所有类别的兴趣度。
    2. 对于一个给定的类来说,我们需要确定这个类中每本书属于该类别的权重。权重有助于我们确定该推荐哪些书给用户。
    下面我们就来看看LFM是如何解决上面的问题的?对于一个给定的用户行为数据集(数据集包含的是所有的user, 所有的item,以及每个user有过行为的item列表),使用LFM对其建模后,我们可以得到如下图所示的模型:(假设数据集中有3个user, 4个item, LFM建模的分类数为4)
     
    R矩阵是user-item矩阵,矩阵值Rij表示的是user i 对item j的兴趣度,这正是我们要求的值。对于一个user来说,当计算出他对所有item的兴趣度后,就可以进行排序并作出推荐。LFM算法从数据集中抽取出若干主题,作为user和item之间连接的桥梁,将R矩阵表示为P矩阵和Q矩阵相乘。其中P矩阵是user-class矩阵,矩阵值Pij表示的是user i对class j的兴趣度;Q矩阵式class-item矩阵,矩阵值Qij表示的是item j在class i中的权重,权重越高越能作为该类的代表。所以LFM根据如下公式来计算用户U对物品I的兴趣度
    我们发现使用LFM后, 
    1. 我们不需要关心分类的角度,结果都是基于用户行为统计自动聚类的,全凭数据自己说了算。
    2. 不需要关心分类粒度的问题,通过设置LFM的最终分类数就可控制粒度,分类数越大,粒度约细。
    3. 对于一个item,并不是明确的划分到某一类,而是计算其属于每一类的概率,是一种标准的软分类。
    4. 对于一个user,我们可以得到他对于每一类的兴趣度,而不是只关心可见列表中的那几个类。
    5. 对于每一个class,我们可以得到类中每个item的权重,越能代表这个类的item,权重越高。

    那么,接下去的问题就是如何计算矩阵P和矩阵Q中参数值。一般做法就是最优化损失函数来求参数。在定义损失函数之前,我们需要准备一下数据集并对兴趣度的取值做一说明。


    数据集应该包含所有的user和他们有过行为的(也就是喜欢)的item。所有的这些item构成了一个item全集。对于每个user来说,我们把他有过行为的item称为正样本,规定兴趣度RUI=1,此外我们还需要从item全集中随机抽样,选取与正样本数量相当的样本作为负样本,规定兴趣度为RUI=0。因此,兴趣的取值范围为[0,1]。


    采样之后原有的数据集得到扩充,得到一个新的user-item集K={(U,I)},其中如果(U,I)是正样本,则RUI=1,否则RUI=0。损失函数如下所示:
    上式中的 是用来防止过拟合的正则化项,λ需要根据具体应用场景反复实验得到。损失函数的优化使用随机梯度下降算法:
    1. 通过求参数PUK和QKI的偏导确定最快的下降方向;

    1. 迭代计算不断优化参数(迭代次数事先人为设置),直到参数收敛。


    其中,α是学习速率,α越大,迭代下降的越快。α和λ一样,也需要根据实际的应用场景反复实验得到。本书中,作者在 MovieLens数据集上进行实验,他取分类数F=100,α=0.02,λ=0.01。
                   【注意】:书中在上面四个式子中都缺少了


    综上所述,执行LFM需要:
    1. 根据数据集初始化P和Q矩阵(这是我暂时没有弄懂的地方,这个初始化过程到底是怎么样进行的,还恳请各位童鞋予以赐教。)
    2. 确定4个参数:分类数F,迭代次数N,学习速率α,正则化参数λ。

    LFM的伪代码可以表示如下:

    1. def LFM(user_items, F, N, alpha, lambda):  
    2.     #初始化P,Q矩阵  
    3.     [P, Q] = InitModel(user_items, F)  
    4.     #开始迭代  
    5.     For step in range(0, N):  
    6.         #从数据集中依次取出user以及该user喜欢的iterms集  
    7.         for user, items in user_item.iterms():  
    8.             #随机抽样,为user抽取与items数量相当的负样本,并将正负样本合并,用于优化计算  
    9.             samples = RandSelectNegativeSamples(items)  
    10.             #依次获取item和user对该item的兴趣度  
    11.             for item, rui in samples.items():  
    12.                 #根据当前参数计算误差  
    13.                 eui = eui - Predict(user, item)  
    14.                 #优化参数  
    15.                 for f in range(0, F):  
    16.                     P[user][f] += alpha * (eui * Q[f][item] - lambda * P[user][f])  
    17.                     Q[f][item] += alpha * (eui * P[user][f] - lambda * Q[f][item])  
    18.         #每次迭代完后,都要降低学习速率。一开始的时候由于离最优值相差甚远,因此快速下降;  
    19.         #当优化到一定程度后,就需要放慢学习速率,慢慢的接近最优值。  
    20.         alpha *= 0.9  
    当估算出P和Q矩阵后,我们就可以使用(*)式计算用户U对各个item的兴趣度值,并将兴趣度值最高的N个iterm(即TOP N)推荐给用户。
    总结来说,LFM具有成熟的理论基础,它是一个纯种的学习算法,通过最优化理论来优化指定的参数,建立最优的模型。

    [使用LFM(Latent factor model)隐语义模型进行Top-N推荐]

    [主题模型LDA及其在微博推荐&广告算法中的应用]

    皮皮blog



    LDA主题模型用于BUG修复人推荐

    [缺陷修复人预测(Bug Triaging)]

    [LDA主题模型用于BUG修复人推荐《DRETOM: developer recommendation based on topic models for bug resolution》]


    [主题模型在文本挖掘中的应用.pdf]

    from: http://blog.csdn.net/pipisorry/article/details/45665779

    ref: 


    展开全文
  • Sublime Text 3 主题设计与应用

    千次阅读 2018-02-02 16:20:42
    sublime text 3 主题设计与应用 作为编辑器之神,sublime之所以能受到...sublime自带相当多的主题插件,其中图第一条就是一个主题插件(此处仅做示范,并不推荐这个主题): 按ctrl+shift+P调出package contro

    sublime text 3 主题设计与应用

    作为编辑器之神,sublime之所以能受到大众的欢迎,就是因为其拥有优雅流畅的操作界面,此博客将介绍sublime配置使用主题以及自定义主题的具体方法

    1)下载使用主题插件

    sublime自带相当多的主题插件,其中下图第一条就是一个主题插件(此处仅做示范,并不推荐这个主题):

    这里写图片描述

    按下ctrl+shift+P调出package control,输入install进行下载操作,再输入想下载插件的名字即可(更多主题插件请自行百度),下载这个插件后,在preferences中选择配色方案使用即可。
    或者按下ctrl+shift+P调用package control,直接输入color,选择下图第一项,再选择想用的主题即可:

    这里写图片描述

    安装使用主题插件的具体操作方法就是这些,在系统自带的主题中,我个人比较推荐Monokai主题。

    2)自定义主题

    每个人的审美都有所不同,所以想要subime真正符合自己的审美,还是需要DIY一套适合自己的主题。
    这里推荐一个在线编辑皮肤的网站,定义完成之后,将皮肤文件导出即可。

    tmtheme-editor.herokuapp.com

    打开之后就是如图所示:
    这里写图片描述

    在左边选取自己喜欢的颜色,右边可以看到在不同语言环境下对应的配色效果。由于自己定义一整套主题相当繁琐,建议先在右侧的gallery中选择一套相对看起来不错的主题,然后进行一定的修改即可~~~

    编辑完成后点击download进行下载,然后在sublime中点击preference-浏览插件目录,自己随便新建一个文件夹,将刚刚下载完成的主题文件放进去即可(笔者的文件夹叫mytheme):

    这里写图片描述

    然后打开sublime,按照之前所说的按下ctrl+shift+P调用package control,直接输入color,选择第一项,再选择想用的主题即可(perfect是笔者自定义的主题):

    这里写图片描述

    最后,一个优雅美观的sublime操作界面就完成啦~

    这里写图片描述

    展开全文
  • CSDN互联网大数据应用主题月视频

    千人学习 2018-09-13 14:56:50
    互联网作为大数据时代的发源地,学习,掌握大数据技术也成为不少工程师必备技能,该视频培训教程共有15课时,分别从这几大方面介绍大数据技术应用,大数据人工智能时代互联网人才技能分析、推荐系统A/B架构设计等...
  • Theme ...现在要给App添加夜晚主题,所以就需要选择一种应用内部更换主题的实现方案,目前来说,比较常见的几种方式如下:Theme设置Theme来切换不同主题。优点:利用系统自带的机制实现,根据标志位set
  • NLP︱LDA主题模型的应用难题

    千次阅读 2017-03-23 21:13:15
    NLP︱LDA主题模型的应用难题   将LDA跟多元统计分析结合起来看,那么LDA中的主题就像词主成分,其把主成分-样本之间的关系说清楚了。多元学的时候聚类分为Q型聚类、R型聚类以及主成分分析。R型聚类、主成分分析...
  • 将LDA跟多元统计分析结合起来看,那么LDA中的主题就像词主成分,其把主成分-样本之间的关系说清楚了。多元学的时候聚类分为Q型聚类、R型聚类以及主成分分析。R型聚类、主成分分析针对变量,Q型聚类针对样本。 PCA...
  • 主题Theme就是用来设置界面UI风格,可以设置整个应用或者某个活动Activity的界面风格。在Android SDK中内置了下面的Theme,可以按标题栏Title Bar和状态栏Status Bar是否可见来分类: •android:theme="@android...
  • 教你实现华为快应用深色主题适配

    千次阅读 2021-02-09 14:20:20
    如何在快应用中实现不同主题模式的适配呢?目前有两种方案: 使用MediaQuery响应式布局能力,自动检测用户的设备的系统主题模式,配置不同模式的css样式。 使用device.getThemeSync,根据获取的结果选择不同...
  • 本文主人公 英特 是一名传统的软件工程师,让我们与英特一起来研究如何实现自己的Lookalike算法,并尝试着在新浪微博上应用这一算法。  当2012 年Facebook 在广告领域开始应用定制化受众(Facebook CustomAudiences...
  • 个性化推荐系统实践应用

    千次阅读 2019-08-23 15:30:12
    近日,达观数据联合创始人于敬进行了《个性化推荐系统实践》的主题分享,深入浅出的讲解了个性化推荐的过程、难点及解决方法。 本文五大内容: 一、推荐系统概述 二、搭建推荐系统的关键算法...
  • 深度学习在推荐领域的应用

    千次阅读 2017-05-31 17:11:57
    作者: 吴岸城,菱歌科技首席算法科学家,致力于深度学习在文本、图像、预测推荐领域的应用。曾在中兴通讯、亚信(中国)担任研发经理、高级技术经理等职务。 责编:何永灿,欢迎人工智能领域技术投稿、约稿、给...
  • 2月15日,CSDN 联合PyCon中国、wuhan2020、xinguan2020 等力量,举办以「抗击疫情,开发者在行动」为主题的2020 Python开发者日·线上技术峰会,围绕Python在疫情中的具体落地应用与项目,为广大Python开发者、爱好...
  • Swift应用开源项目推荐

    千次阅读 2015-01-30 13:58:57
    Swift应用开源项目推荐 1. 风靡全球的2048 2014年出现了不少虐心的小游戏,除了名声大噪的Flappy Bird外,最风靡的应该就是2048了。一个看似简单的数字叠加游戏,却让玩的人根本停不下来,朋友圈还一度被晒分数的...
  • LDA在资讯推荐应用

    千次阅读 2016-10-23 22:51:25
    这就需要推送给用户感兴趣的资讯,而用户的用户画像已经保存了用户的兴趣特征,所以需要提取资讯的特征,用于用户的个性化推荐。 如何提取资讯的特征或者说对资讯进行简单的分类? 刚开始想到svm等一些常用的分类...
  • 本文来自携程技术中心基础业务研发部的《应用架构涅槃》系列分享。据基础业务研发部负责人李小林介绍,互联网二次革命的移动互联网时代,如何吸引用户、留住用户并深入挖掘用户价值,在激烈的竞争中脱颖而出,是各大...
  • Graph Embedding在淘宝推荐系统的应用

    千次阅读 2019-06-22 19:21:25
    关于GE这个主题再写最后一篇文章,是在推荐系统的实际应用。这是18年阿里发的一篇文章,应用在淘宝上,《Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba》,附个链接 ...
  • 微博也在机器学习方面做了广泛的探索,其中在推荐领域,将机器学习技术应用于微博最主要的产品之一——热门微博,并取得了显著的效果提升。 热门微博推荐系统介绍 热门微博业务场景 热门微博是基于微博原生内容...
  • 浅谈矩阵分解在推荐系统中的应用

    万次阅读 多人点赞 2014-03-14 16:28:35
    矩阵分解算法在推荐系统利用的应用,详细介绍应用方法,及目标函数的推导过程。
  • 将word2Vec应用推荐系统

    千次阅读 2018-08-20 14:23:07
    过去几年中word2vec模型不仅仅应用在自然语言任务,而且也逐渐地应用推荐系统和广告上。 word2vec背后的关键原则:一个词的含义可以从它的上下文语境中推断出来 。 更抽象的,文本实际上只是一个单词序列,一...
  • 腾讯效果广告平台部的Peacock大规模主题模型机器学习系统,通过并行计算可以...该系统应用到了腾讯业务中,包括 QQ 群的推荐,用户商业兴趣的挖掘与分类,相似用户的扩展,广告点击率预估等等,均取得了不错的效果。
  • 2018深度学习在个性化推荐中的应用

    千次阅读 2018-08-07 09:46:13
    深度学习在个性化推荐中的应用 结论 得益于深度学习强大的表示能力,目前深度学习在推荐系统中需要对用户与物品进行表示学习的任务中有着不错的表现,但优势不如图像与文本那么显著[1]。 深度学习与分布式表示...
  • 深度学习在推荐算法上的应用进展

    千次阅读 2017-04-30 19:33:31
    原文:RUC智能情报站 | 深度学习在推荐算法上的应用进展 摘要:最近几年是深度学习发展的黄金时间,在多个领域取得了重要进展,包括图像领域、语音领域、文本领域等。深度学习为科研工作者提供了一种非常有效的技术...
  • 如果用户最近搜索了“红酒木瓜汤”,那么应该...在广告、搜索和推荐中,最重要的问题之一就是理解用户兴趣以及页面、广告、商品等的隐含语义。 让机器能自动学习和理解人类语言中近百万种语义,以及从海量用户行为数据
  • 一、简述  这几天在看《推荐系统实战》这本书。其中,基于领域的算法是推荐系统中最基本的算法,什么是基于领域的算法呢?...这里有一个查找物品或用户兴趣的相似性,就是我们今天讨论的主题相似性的度量。   ...
  • 多年来主要从事推荐系统以及机器学习,也做过计算广告、反作弊等相关工作,并热衷于探索大数据和机器学习技术在其他领域的应用实践。 责编:何永灿(heyc@csdn.net) 本文为《程序员》原创文章,更多精彩文章请...
  • 本文对10月2-7号在加拿大渥太华举办的Recsys的32篇论文做了整理和归纳,总结出了目前推荐系统最新技术应用和方向。并对每一篇文章做了粗略的讲解。 我打算从以下四个方面来讲述这32篇论文。 首先呢,我会...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 120,354
精华内容 48,141
关键字:

下主题的应用推荐