精华内容
下载资源
问答
  • 潜在语义索引(LSI)

    2020-09-12 15:41:35
    本文关注于潜在语义索引算法(LSI)的原理。 潜在语义索引(LSI)   潜在语义索引(Latent Semantic Indexing,以下简称LSI),有的文章也叫Latent Semantic Analysis(LSA)。其实是一个东西,后面我们统称LSI,它是一种...

    前言

      在文本挖掘中,主题模型是比较特殊的一块,它的思想不同于我们常用的机器学习算法,因此这里我们需要专门来总结文本主题模型的算法。本文关注于潜在语义索引算法(LSI)的原理。

    潜在语义索引(LSI)

      潜在语义索引(Latent Semantic Indexing,以下简称LSI),有的文章也叫Latent Semantic Analysis(LSA)。其实是一个东西,后面我们统称LSI,它是一种简单实用的主题模型。LSI是基于奇异值分解(SVD)的方法来得到文本的主题的。
      这里我们简要回顾下SVD:对于一个m×n的矩阵A,可以分解为下面三个矩阵:
    A m × n = U m × m Σ m × n V n × n T A_{m×n}=U_{m×m}\Sigma_{m×n} V^{T}_{n×n} Am×n=Um×mΣm×nVn×nT
    有时为了降低矩阵的维度到k,SVD的分解可以近似的写为:
    A m × n = U m × k Σ k × k V k × n T A_{m×n}=U_{m×k}\Sigma_{k×k} V^{T}_{k×n} Am×n=Um×kΣk×kVk×nT
      如果把上式用到我们的主题模型,则SVD可以这样解释:我们输入的有 m m m个文本,每个文本有 n n n个词。而 A i j A_{ij} Aij则对应第 i i i个文本的第 j j j个词的特征值,这里最常用的是基于预处理后的标准化TF-IDF值。 k k k是我们假设的主题数,一般要比文本数少。SVD分解后, U i l U_{il} Uil对应第i个文本和第l个主题的相关度。 V j m V_jm Vjm对应第 j j j个词和第 m m m个词义的相关度。 Σ l m Σ_lm Σlm对应第 l l l个主题和第 m m m个词义的相关度。
      也可以反过来解释:我们输入的有 m m m个词,对应 n n n个文本。而 A i j A_{ij} Aij则对应第 i i i个词档的第 j j j个文本的特征值,这里最常用的是基于预处理后的标准化TF-IDF值。k是我们假设的主题数,一般要比文本数少。SVD分解后, U i l U_{il} Uil对应第 i i i个词和第 l l l个词义的相关度。 V j m V_{jm} Vjm对应第 j j j个文本和第 m m m个主题的相关度。 Σ l m Σ_{lm} Σlm对应第 l l l个词义和第 m m m个主题的相关度。
      这样我们通过一次SVD,就可以得到文档和主题的相关度,词和词义的相关度以及词义和主题的相关度。

    LSI用于文本相似度计算

      通过LSI得到的文本主题矩阵可以用于文本相似度计算。而计算方法一般是通过余弦相似度。比如对于下面的三文档两主题的例子。矩阵 V V V如下所示:
    [ − 0.4945 − 0.6458 − 0.5817 0.6492 − 0.7194 0.2469 ] \begin{bmatrix} -0.4945 & -0.6458 & -0.5817\\ 0.6492 & -0.7194 &0.2469 \end{bmatrix} [0.49450.64920.64580.71940.58170.2469]
    计算第一个文本和第二个文本的余弦相似度如下 :
    s i m ( d 1 , d 2 ) = ( − 0.4945 ) ∗ ( − 0.6458 ) + ( 0.6492 ) ∗ ( − 0.7194 ) ( − 0.4945 ) 2 + 0.649 2 2 ( − 0.6458 ) 2 + ( − 0.7194 ) 2 sim(d_1,d_2)=\frac{(-0.4945)*(-0.6458)+(0.6492)*(-0.7194)}{\sqrt{(-0.4945)^2+0.6492^2}\sqrt{(-0.6458)^2+(-0.7194)^2}} sim(d1,d2)=(0.4945)2+0.64922 (0.6458)2+(0.7194)2 (0.4945)(0.6458)+(0.6492)(0.7194)

    LSI主题模型总结

      LSI是最早出现的主题模型了,它的算法原理很简单,一次奇异值分解就可以得到主题模型,同时解决词义的问题,非常漂亮。但是LSI有很多不足,导致它在当前实际的主题模型中已基本不再使用。
    主要的问题有:

    1. SVD计算非常的耗时,尤其是我们的文本处理,词和文本数都是非常大的,对于这样的高维度矩阵做奇异值分解是非常难的。
    2. 主题值的选取对结果的影响非常大,很难选择合适的k值。
    3. LSI得到的不是一个概率模型,缺乏统计基础,结果难以直观的解释。

    对于问题1),主题模型非负矩阵分解(NMF)可以解决矩阵分解的速度问题。对于问题2),这是难题了,大部分主题模型的主题的个数选取一般都是凭经验的,较新的层次狄利克雷过程(HDP)可以自动选择主题个数。对于问题3),牛人们整出了pLSI(也叫pLSA)和隐含狄利克雷分布(LDA)这类基于概率分布的主题模型来替代基于矩阵分解的主题模型。
      回到LSI本身,对于一些规模较小的问题,如果想快速粗粒度的找出一些主题分布的关系,则LSI是比较好的一个选择,其他时候,如果你需要使用主题模型,推荐使用LDA和HDP。

    结束语

    本人大三学生一枚,学识尚浅,不喜勿喷,希望今日能抛砖引玉,请各位大佬一定不吝赐教!!!
    参考自:https://www.cnblogs.com/pinard/p/6805861.html

    展开全文
  • 稀疏潜在语义索引 如果您使用代码,请引用以下论文。 @INPROCEEDINGS{sdm2011slsa,作者 = {X. Chen and Y. Qi and B. Bai and Q. Lin and JG Carbonell}, title = {Sparse Latent Semantic Analysis}, booktitle =...
  • 关键词:潜在语义索引,LSI,奇异值分解,SVD,特征向量,文档,查询,余弦相似度,term count model 背景:以下LSI示例摘自Grossman和Frieder的 Information Retrieval, Algorithms and Heuristics (1) 的第71页...

    原文作者:Dr. Edel Garcia

    原文地址:https://apluswebservices.com/wp-content/uploads/2012/05/latent-semantic-indexing-fast-track-tutorial.pdf

    • 摘要:本快速教程提供了使用奇异值分解(SVD)计算方法和Term Count Model对查询和文档评分以及对结果排序的说明。
    • 关键词:潜在语义索引,LSI,奇异值分解,SVD,特征向量,文档,查询,余弦相似度,term count model
    • 背景:以下LSI示例摘自Grossman和Frieder的Information Retrieval, Algorithms and Heuristics (1)的第71页

    一个collection由下面的documents组成:

    1. Shipment of gold damaged in a fire.
    2. Delivery of silver arrived in a silver truck.
    3. Shipment of gold arrived in a truck.

    作者使用Term Count Model计算term weights和query weights,因此将local weights定义为词汇出现的频率,还使用了下面的文档索引规则:

    1. 停用词不会被忽略
    2. 文本都是已分词(tokenized)且小写的
    3. 词干化(stemming)不会被用到
    4. 词语按照字母顺序排列

    在本教程中,我们想使用这个例子来说明LSI是如何工作的。现在我们知道,大多数当前的LSI模型不仅仅基于local weights,而是基于包含local、global和document normalization weights模型。其他的还有entropy weights和link weights。我们还知道,现代的模型都忽略了停用词和在文档中只出现了一次的词。词干化和以字母顺序排列是可选的。对于这个快速教程,这个例子已经足够好了。

    • 问题:当以gold silver truck为搜索词时,使用潜在语义索引(LSI)对这些文档进行排名。

    1.计算term weights并且构造词-文档矩阵A和查询矩阵:

    2.分解矩阵A,并找到U、S和V,使得A=USV^{T}

    3.通过保留u和v的第一列以及s的第一列和第一行来实现秩2近似。

    4.在这个降维的二维空间中找到新的文档向量坐标。

    V的行向量保留特征向量,这些是单独的文档向量(document vectors)的坐标,因此:

    d1(-0.4945,0.6492)

    d2(-0.6458,-0.7194)

    d3(-0.5817,0.2469)

    5.在降维的二维空间中找到新的查询向量坐标。

    q=q^{T}U_{k}S_{k}^{-1}

    注意:这是二维中的查询向量(query vector)的新坐标。请注意现在这个矩阵与步骤1中给出的原始查询矩阵q不同。

    6.按照查询-文档的余弦相似度的降序排列文档。

    计算余弦相似度的公式如下,首先计算查询向量和文档向量之间的点积,然后除以查询向量和文档向量模的乘积。

    我们可以看到文档d2的分数高于d3和d1,它的向量比其他向量更接近查询向量。请注意,词向量理论仍然应用于LSI的开始与结尾。

    展开全文
  • 潜在语义索引差异模型(DLSI)能够扩大类间的差异,降低噪声的干扰,从而提高识别的精度。本文提出基于DLSI的启动子识别算法,利用潜在语义索引差异模型进行特征词选择,通过将样本变换到潜在语义空间中实现降维,建立了...
  • 通过对全局模型和局部模型的分析,提出一种新的潜在语义索引差异模型,能将类别信息反应在词项中。以医学网页为实验对象,将网页中的文本抽取出来并分别用全局模型和差异模型表示,采用SVD和SLSI降维,利用SVM算法进行...
  • 针对上述问题,提出了一种适用于文本的基于潜在语义索引的谱聚类方法,该方法应用了潜在语义索引和谱聚类方法的优点,不仅分析了词与词之间的语义关系,而且适用于任意形状分布的样本数据聚类。针对航空安全报告的...
  • 先对矩阵做SVD分解,然后利用V矩阵,计算LSI,LSI得到的文本主题矩阵可以用于文本相似度计算。而计算方法一般是通过余弦相似度。需要选取主题的k值。 LSI是最早出现的主题模型了,它的算法原理很简单,一次奇异...

    好文章的搬运工:https://www.cnblogs.com/pinard/p/6805861.html

    先对矩阵做SVD分解,然后利用V矩阵,计算LSI,LSI得到的文本主题矩阵可以用于文本相似度计算。而计算方法一般是通过余弦相似度。需要选取主题的k值。

     

    LSI是最早出现的主题模型了,它的算法原理很简单,一次奇异值分解就可以得到主题模型,同时解决词义的问题,非常漂亮。但是LSI有很多不足,导致它在当前实际的主题模型中已基本不再使用。

        主要的问题有:

        1) SVD计算非常的耗时,尤其是我们的文本处理,词和文本数都是非常大的,对于这样的高维度矩阵做奇异值分解是非常难的。

        2) 主题值的选取对结果的影响非常大,很难选择合适的k值。

        3) LSI得到的不是一个概率模型,缺乏统计基础,结果难以直观的解释。

     

    回到LSI本身,对于一些规模较小的问题,如果想快速粗粒度的找出一些主题分布的关系,则LSI是比较好的一个选择,其他时候,如果你需要使用主题模型,推荐使用LDA和HDP。

    展开全文
  • 术语文档矩阵生成器的 Java 实现,用作计算数据集潜在语义索引的工具。 首次运行生成器时显示的命令提示符的屏幕截图。 基于从各种文档中提取唯一词的结果生成的 .csv 文件示例。 我们可以将这些矩阵加载到 ...
  • 潜在语义索引 潜在语义索引基于用于信息过滤的单值分解基于一大段文本构建一个包含每个段落的单词计数(行代表唯一的单词,列代表每个段落的单词)的矩阵,并且一种称为奇异值分解(SVD)的数学技术是用于减少行数,...
  • 基于潜在语义索引的职位描述聚类研究.pdf
  • 潜在语义索引

    2013-10-10 17:29:45
    潜在语义索引是一种搜索方法,也是一种索引。通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式。一般认为,在同样的语境中使用的词语一般具有相似的含义,LSI就是基于这一规则的搜索方法。LSI的一个...
        潜在语义索引是一种搜索方法,也是一种索引。通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式。一般认为,在同样的语境中使用的词语一般具有相似的含义,LSI就是基于这一规则的搜索方法。LSI的一个重要特征就是,通过建立那些出现在相同语境中的词语之间的联系,它能够提取出一个文本的具体内容是什么,而不像以前的搜索方法只是检索具体的关键词。之所以叫潜在语义索引是因为它能够把一组文档中具有隐含的语义联系的词语联系起来。


    LSI通俗解释

    所谓隐性语义索引指的是,怎样通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。机器并不知道某个词究竟代表什么,不知道某个词是什么意思。 比如:

    • 电脑和计算机这两个词在人们写文章时经常混用,这两个词在大量的网页中同时出现,搜索引擎就会认为这两个词是极为语义相关的。
    • SEO和搜索引擎优化(虽然一个是英语,一个是中文)这两个词大量出现在相同的网页中,虽然搜索引擎还不能知道搜索引擎优化或SEO指的是什么,但是却可以从语义上把”SEO”,”搜索引擎优化”,”search engine optimization”,”SEM”等词紧紧的连在一起。可见潜在语义索引并不依赖于语言。
    • 如苹果和橘子这两个词,也是大量出现在相同文档中,不过紧密度低于同义词。所以搜索引擎不会认为它们是语义相关的。

    LSI的好处

    从自然语言的角度,大部分词具有一词多义的特点,机器算法无法确定在何环境下使用何种词义,这就导致了搜索结果与用户的理想值便存在很大的距离:

    • 一词多义将导致基于精确匹配的搜索算法在给出的结果中包含很多并非用户真正要查找的内容;
    • 一义多词则使用得基于精确匹配的搜索算法在给出的结果中遗漏很多用户真正要查找的内容。

    Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解,以大样本数量的统计分析找出不同的词(词组、短语)间的相关性,以使搜索结果进一步接近于用户真正要查找的内容,同时,也能够保证搜索的效率。

    展开全文
  • 基于潜在语义索引和句子聚类的中文自动文摘.pdf
  • 结合类别信息和潜在语义索引进行文本分类的降维
  • 一种基于潜在语义索引和卷积神经网络的智能阅读模型.pdf
  • 一种基于潜在语义索引和卷积神经网络的智能阅读模型.docx
  • 基于潜在语义索引和自组织映射网的检索结果聚类方法.pdf
  • PLSI 概率潜在语义索引的 C++ 实现
  • 答辩一种基于潜在语义索引和卷积神经网络的智能阅读模型.pdf
  • 大规模集成电路 基于潜在语义索引的Java信息检索方法示例。
  • 基于潜在语义索引的超链接分析模型,刘华生,刘刚,为了更合理的排名Web文档本文提出了一个新的链接分析模型。该模型结合了基于马尔科夫链的链接分析技术和基于潜在语义索引[1,2]以及�
  • 答辩-一种基于潜在语义索引和卷积神经网络的智能阅读模型.pptx
  • 一种大规模数据的快速潜在语义索引一种大规模数据的快速潜在语义索引
  • 因此,这项工作提供了 LSI 算法的顺序版本(SLSI)。 它与现有算法的主要区别在于空间的维度不是固定的,而是动态变化的确保矩阵的给定水平的相对近似误差观察。 对真实文本集合的实验表明, SLSI 算法可以看作是一种...
  • 提出了一种基于潜在语义的科技文献主题挖掘方法,描述了科技文献的主题挖掘模型。对科技文献集进行预处理,计算特征词权重,构造出词汇-文献矩阵。用改进的LSI算法对稀疏矩阵进行降维得到固定的主题-文献矩阵。取...
  • 关于潜在语义索引模型

    千次阅读 2015-12-01 19:52:54
    LSI(潜在语义索引模型)定义:LSI,英文:Latent Semantic Indexing的缩写,中文意译是潜在语义索引,指的是通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在一个文档中时,这些词之间就可以被认为是语义...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 10,775
精华内容 4,310
关键字:

潜在语义索引