精华内容
下载资源
问答
  • 文本建模

    千次阅读 2015-11-05 12:46:24
    统计文本建模的目的就是追问这些观察到语料库中的的词序列是如何生成的。统计学被人们描述为猜测上帝的游戏,人类产生的所有的语料文本我们都可以看成是一个伟大的上帝在天堂中抛掷骰子生成的,我们观察到的只是上帝...

    我们日常生活中总是产生大量的文本,如果每一个文本存储为一篇文档,那每篇文档从人的观察来说就是有序的词的序列 d=(w1,w2,,wn)

    corpus

    包含 M 篇文档的语料库

    统计文本建模的目的就是追问这些观察到语料库中的的词序列是如何生成的。统计学被人们描述为猜测上帝的游戏,人类产生的所有的语料文本我们都可以看成是一个伟大的上帝在天堂中抛掷骰子生成的,我们观察到的只是上帝玩这个游戏的结果 —— 词序列构成的语料,而上帝玩这个游戏的过程对我们是个黑盒子。所以在统计文本建模中,我们希望猜测出上帝是如何玩这个游戏的,具体一点,最核心的两个问题是

    • 上帝都有什么样的骰子;
    • 上帝是如何抛掷这些骰子的;

    第一个问题就是表示模型中都有哪些参数,骰子的每一个面的概率都对应于模型中的参数;第二个问题就表示游戏规则是什么,上帝可能有各种不同类型的骰子,上帝可以按照一定的规则抛掷这些骰子从而产生词序列。

    dice-all god-throw-dice

    上帝掷骰子

    4.1 Unigram Model

    假设我们的词典中一共有 V 个词 v1,v2,vV ,那么最简单的 Unigram Model 就是认为上帝是按照如下的游戏规则产生文本的。

    game-unigram-model

    上帝的这个唯一的骰子各个面的概率记为 p=(p1,p2,,pV) , 所以每次投掷骰子类似于一个抛钢镚时候的贝努利实验, 记为 wMult(w|p)

    unigram-model

    上帝投掷 V 个面的骰子

    对于一篇文档 d=w=(w1,w2,,wn) , 该文档被生成的概率就是

    p(w)=p(w1,w2,,wn)=p(w1)p(w2)p(wn)

    而文档和文档之间我们认为是独立的, 所以如果语料中有多篇文档  W=(w1,w2,,wm) ,则该语料的概率是
    p(W)=p(w1)p(w2)p(wm)

    在 Unigram Model 中, 我们假设了文档之间是独立可交换的,而文档中的词也是独立可交换的,所以一篇文档相当于一个袋子,里面装了一些词,而词的顺序信息就无关紧要了,这样的模型也称为词袋模型(Bag-of-words)。

    假设语料中总的词频是 N , 在所有的 N 个词中,如果我们关注每个词 vi 的发生次数 ni ,那么 n=(n1,n2,,nV) 正好是一个多项分布

    p(n)=Mult(n|p,N)=(Nn)k=1Vpnkk

    此时, 语料的概率是
    p(W)=p(w1)p(w2)p(wm)=k=1Vpnkk

    当然,我们很重要的一个任务就是估计模型中的参数 p ,也就是问上帝拥有的这个骰子的各个面的概率是多大,按照统计学家中频率派的观点,使用最大似然估计最大化 P(W) ,于是参数 pi 的估计值就是

    pi^=niN.

    对于以上模型,贝叶斯统计学派的统计学家会有不同意见,他们会很挑剔的批评只假设上帝拥有唯一一个固定的骰子是不合理的。在贝叶斯学派看来,一切参数都是随机变量,以上模型中的骰子 p 不是唯一固定的,它也是一个随机变量。所以按照贝叶斯学派的观点,上帝是按照以下的过程在玩游戏的

    game-bayesian-unigram-model
    上帝的这个坛子里面,骰子可以是无穷多个,有些类型的骰子数量多,有些类型的骰子少,所以从概率分布的角度看,坛子里面的骰子 p 服从一个概率分布 p(p) ,这个分布称为参数 p 的先验分布。

    bayesian-unigram-model

    贝叶斯观点下的 Unigram Model

    以上贝叶斯学派的游戏规则的假设之下,语料 W 产生的概率如何计算呢?由于我们并不知道上帝到底用了哪个骰子 p ,所以每个骰子都是可能被使用的,只是使用的概率由先验分布 p(p) 来决定。对每一个具体的骰子 p ,由该骰子产生数据的概率是 p(W|p) , 所以最终数据产生的概率就是对每一个骰子 p 上产生的数据概率进行积分累加求和

    p(W)=p(W|p)p(p)dp

    在贝叶斯分析的框架下,此处先验分布 p(p) 就可以有很多种选择了,注意到
    p(n)=Mult(n|p,N)

    实际上是在计算一个多项分布的概率,所以对先验分布的一个比较好的选择就是多项分布对应的共轭分布,即 Dirichlet 分布
    Dir(p|α)=1Δ(α)k=1Vpαk1kα=(α1,,αV)

    此处, Δ(α) 就是归一化因子 Dir(α) ,即
    Δ(α)=k=1Vpαk1kdp.

    dirichlet-multinomial-unigram

    Dirichlet 先验下的 Unigram Model

    graph-model-unigram

    Unigram Model的概率图模型

    回顾前一个小节介绍的 Drichlet 分布的一些知识,其中很重要的一点就是

    Dirichlet 先验 + 多项分布的数据  后验分布为 Dirichlet 分布

    Dir(p|α)+MultCount(n)=Dir(p|α+n)

    于是,在给定了参数 p 的先验分布 Dir(p|α) 的时候,各个词出现频次的数据 nMult(n|p,N) 为多项分布, 所以无需计算,我们就可以推出后验分布是

    p(p|W,α)=Dir(p|n+α)=1Δ(n+α)k=1Vpnk+αk1kdp(1)

    在贝叶斯的框架下,参数 p 如何估计呢?由于我们已经有了参数的后验分布,所以合理的方式是使用后验分布的极大值点,或者是参数在后验分布下的平均值。在该文档中,我们取平均值作为参数的估计值。使用上个小节中的结论,由于 p 的后验分布为 Dir(p|n+α) ,于是

    E(p)=(n1+α1Vi=1(ni+αi),n2+α2Vi=1(ni+αi),,nV+αVVi=1(ni+αi))

    也就是说对每一个 pi , 我们用下式做参数估计
    pi^=ni+αiVi=1(ni+αi)(2)

    考虑到 αi 在 Dirichlet 分布中的物理意义是事件的先验的伪计数,这个估计式子的含义是很直观的:每个参数的估计值是其对应事件的先验的伪计数和数据中的计数的和在整体计数中的比例。

    进一步,我们可以计算出文本语料的产生概率为

    p(W|α)=p(W|p)p(p|α)dp=k=1VpnkkDir(p|α)dp=k=1Vpnkk1Δ(α)k=1Vpαk1kdp=1Δ(α)k=1Vpnk+αk1kdp=Δ(n+α)Δ(α)(3)

    4.2 Topic Model 和 PLSA

    以上 Unigram Model 是一个很简单的模型,模型中的假设看起来过于简单,和人类写文章产生每一个词的过程差距比较大,有没有更好的模型呢?

    我们可以看看日常生活中人是如何构思文章的。如果我们要写一篇文章,往往是先确定要写哪几个主题。譬如构思一篇自然语言处理相关的文章,可能 40\% 会谈论语言学、30\% 谈论概率统计、20\% 谈论计算机、还有10\%谈论其它的主题:

    • 说到语言学,我们容易想到的词包括:语法、句子、乔姆斯基、句法分析、主语…;
    • 谈论概率统计,我们容易想到以下一些词: 概率、模型、均值、方差、证明、独立、马尔科夫链、…;
    • 谈论计算机,我们容易想到的词是: 内存、硬盘、编程、二进制、对象、算法、复杂度…;

    我们之所以能马上想到这些词,是因为这些词在对应的主题下出现的概率很高。我们可以很自然的看到,一篇文章通常是由多个主题构成的、而每一个主题大概可以用与该主题相关的频率最高的一些词来描述。

    以上这种直观的想法由Hoffman 于 1999 年给出的PLSA(Probabilistic Latent Semantic Analysis) 模型中首先进行了明确的数学化。Hoffman 认为一篇文档(Document) 可以由多个主题(Topic) 混合而成, 而每个Topic 都是词汇上的概率分布,文章中的每个词都是由一个固定的 Topic 生成的。下图是英语中几个Topic 的例子。

    topic-examples

    Topic 就是Vocab 上的概率分布

    所有人类思考和写文章的行为都可以认为是上帝的行为,我们继续回到上帝的假设中,那么在 PLSA 模型中,Hoffman 认为上帝是按照如下的游戏规则来生成文本的。

    game-plsa

    以上PLSA 模型的文档生成的过程可以图形化的表示为

    plsa-doc-topic-word

    PLSA 模型的文档生成过程

    我们可以发现在以上的游戏规则下,文档和文档之间是独立可交换的,同一个文档内的词也是独立可交换的,还是一个 bag-of-words 模型。游戏中的 K 个topic-word 骰子,我们可以记为 φ1,,φK , 对于包含 M 篇文档的语料 C=(d1,d2,,dM) 中的每篇文档 dm ,都会有一个特定的doc-topic骰子 θm ,所有对应的骰子记为 θ1,,θM 。为了方便,我们假设每个词 w 都是一个编号,对应到topic-word 骰子的面。于是在 PLSA 这个模型中,第 m 篇文档 dm 中的每个词的生成概率为

    p(w|dm)=z=1Kp(w|z)p(z|dm)=z=1Kφzwθmz

    所以整篇文档的生成概率为
    p(w|dm)=i=1nz=1Kp(wi|z)p(z|dm)=i=1nz=1Kφzwiθdz

    由于文档之间相互独立,我们也容易写出整个语料的生成概率。求解PLSA 这个 Topic Model 的过程汇总,模型参数并容易求解,可以使用著名的 EM 算法进行求得局部最优解,由于该模型的求解并不是本文的介绍要点,有兴趣的同学参考 Hoffman 的原始论文,此处略去不讲。



    本文链接转载自:[LDA数学八卦-4]文本建模    来源:火光摇曳!

    展开全文
  • 文本建模

    2020-04-08 11:19:19
    文本建模 • 目标是通过Web应用的内容构建导航,因此 也是导航建模 – 建模节点和超文本结构 – 建模导航路径 • 产出 – 超文本/导航结构模型:导航类图 • 表述超文本的结构, i.e.,内容模型可以通过导航来...

    超文本建模

    • 目标是通过Web应用的内容构建导航,因此 也是导航建模

    – 建模节点和超文本结构

    – 建模导航路径

    • 产出

    – 超文本/导航结构模型:导航类图

    • 表述超文本的结构, i.e.,内容模型可以通过导航来访问

    – 超文本访问模型(Access model)

    • 使用访问模型中的访问元素精化超文本结构模型

    – 针对用户角色, i.e., 新闻作者, 审稿人, 管理员

    超文本建模:

    静态建模

    • 以内容模型为基础

    – 类和对象在超文本中表示为节点

    – 转换规则和按需添加的一些链接

    • 特定的符号:如UWE

    – «navigation class»:导航节点

    – «navigation link»:导航链接

    – «process link»:过程链接

    – «external link»:外部链接

    建模超文本结构模型的步骤

    1. 为每个导航相关的内容类定义导航类

    2. 为内容模型相关的关联、聚合和组合定义导 航链接

    3. 在内容模型中添加重数和角色名

    4. 根据需求分析的情景添加额外的导航链接

    5. 添加额外的导航链接作为快捷方式 (note: 1, 2 和3可以自动化进行)

    展开全文
  • 一种面向藏文聚类的文本建模方法.pdf
  • 语义网法 法律文本建模工具
  • 近年来,图像文本建模研究已经成为自然语言处理领域一个重要的硏究方向。图像常被用于增强句子的语义理解与表示。然而也有硏究人员对图像信息用于句子语义理解的必要性提岀质疑,原因是文本本身就能够提供强有力的...
  • LDA文本建模

    2014-12-27 16:08:28
    统计文本建模的目的就是追问这些观察到语料库中的词序列是如何生成的。 我们将上述统计学问题看成上帝抛掷骰子生成的。那么出现两个核心的问题: 1.上帝都有什么样的骰子。即表示模型中都有哪些参数,骰子的每一面...
    我们日常生活中会产生大量的文本,如果每一个文本存储为一个文档,那每篇文档从人的观察来说就是有序的词的序列。
    

    统计文本建模的目的就是追问这些观察到语料库中的词序列是如何生成的。

    我们将上述统计学问题看成上帝抛掷骰子生成的。那么出现两个核心的问题:
    1.上帝都有什么样的骰子。即表示模型中都有哪些参数,骰子的每一面的概率都对应于模型中的参数。
    2.上帝是如何抛掷这些骰子的。即表示游戏规则是什么,上帝会有不同类型的骰子,会按照一个什么样的方式来抛掷骰子产生词序列

    LDA如下


    展开全文
  • 文本建模常用的预处理方法

    千次阅读 2015-07-02 19:31:55
    最近看文本建模,给一大段文本,如何建模??? 以MeTa代码为例: [[analyzers]] method = "ngram-word" ngram = 1 [[analyzers.filter]] type = "whitespace-tokenizer" [[analyzers.filter]] type = ...

    最近看文本建模,给一大段文本,如何建模???

    以MeTa代码为例:

    [[analyzers]] 
    method = "ngram-word" 
    ngram = 1 
    	[[analyzers.filter]] 
    	type = "whitespace-tokenizer" 
    	[[analyzers.filter]] 
    	type = "lowercase" 
    	[[analyzers.filter]] 
    	type = "alpha" 
    	[[analyzers.filter]] 
    	type = "length" 
    	min = 2 
    	max = 35 
    	[[analyzers.filter]] 
    	type = "list" 
    	file = "lemur-stopwords.txt" 
    	[[analyzers.filter]] 
    	type = "porter2-stemmer"

    This tells MeTA how to process the text before indexing the documents. “ngram=1” configures MeTA to use unigrams (single words). Each “[[analyzers.filter]]” tag defines a text filter that applies a special function on the text. These filters are being “chained” together; text will first be processed by a whitespace tokenizer which separates words based on white spaces, then all the tokenized words will be converted to lowercase. This is followed by a couple of filters that end up with  stopword removal  and  stemming . These filters can be usually changed depending on the application. For more information on how to use and configure the filters in MeTA see  MeTA's Analyzers and Filters documentation.



    1、分词:使用空格(type = "whitespace-tokenizer")作为分割符号,方法是1-gram,即一个空格分一个词,如果是2-gram,则是两个空格分一个词;汉语有专门的分词工具。

    2、字母转换为小写:type = "lowercase" ,便于将Me和me看做同一个词。

    3、可以根据不同的应用,选择其他过滤器,如type = "length" 、type = "alpha"等。

    4、去停顿词和功能词:file = "lemur-stopwords.txt",简单说是没有任何含义的词汇(a、about、above、上午、下午、中午),中英文都有相应的词集。

    5、词干分析:type = "porter2-stemmer",看下面就懂了。

    abandon                       abandon
    abandoned                     abandon
    abandoning                    abandon
    abandonment                   abandon
    abandons                      abandon

    (2-5对应于前段时间做的微博分析,则是转换所有图片为picture、转换所有超链接为http等处理,一定要做适合自己的过滤)

    6、筛选有用词汇:通过信息增益、CHI-test或其他TF-IDF等方法



    文本建模系列会不断更新。。。。

    展开全文
  • 文本建模系列之二:pLSA

    千次阅读 2016-05-06 21:01:30
    还是这句话,这是业余研究生的文本建模系列之二:关于pLSA。前述就到此。   pLSA:Probabilistic Latent Senmantic Indexing.是Hoffman在1999年提出的基于概率的隐语义分析【1】。之所以说是probabilistic,是...
  • 文本建模系列之一:LSA

    千次阅读 2016-05-06 21:00:41
    俗话说“庙小妖风大,水浅王八多”,作为一名自然语言处理的水货研究生,...文本建模是自然语言处理领域中很基础的内容,而且也已经被研究了千万遍,这个系列我主要的思路是从LSA->pLSA->unigram model ->LDA,其中p
  • 初识文本建模

    千次阅读 2016-01-21 14:52:22
    Unigram, Bigram, Trigram 均是自然语言处理(NLP)中的问题(N-gram问题衍生而来)。...Bigram 形式为:西安/安交/交通/通大/大学(n-1)我们在日常生活中,总是产生大量的文本,如果每一个文本存储为一篇文档,那每
  • 本篇关于TF-IDF/CHI/IG, 文本建模系列会不断更新。。。。
  • 关于先删除停顿词还是先进行stem操作,推荐先删除停顿词,在进行stem操作,最后在处理一次停顿词,相信大家应该明白为什么这么做。。。 文本建模系列会不断更新。。。。
  • 为从知识图生成文本建模全局和局部节点上下文 该存储库包含TACL论文的代码:“”。 该存储库包含实验性软件,其发布的唯一目的是在各个出版物上提供其他背景信息。 该项目是使用框架和库。 请参阅其网站以获取有关...
  • 统计文本建模的问题就是:追问这些观察到的语料库中的词序列是如何生成的。 1)LDA文本建模(1-2)里应该明白的结论 beta分布是二项式分布的共轭先验概率分布:  “对于非负实数和,我们有如下关系 ----...
  • THUCTC(THU Chinese Text Classification)是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动高效地实现用户自定义的文本分类语料的训练、评测、分类功能。 仓库地址 7)jiegzhan/multi-class-...
  • 文本建模之Unigram Model

    千次阅读 2018-06-19 17:07:10
    Welcome To My Blog 通过生成文章及语料的例子介绍unigram model 参考: 靳志辉,《LDA数学八卦》
  • 【论文】文本建模框架 conv-RNN

    千次阅读 2018-03-02 17:39:02
    《A Hybrid Framework for Text Modeling with Convolutional RNN》这篇论文是对深度学习语义建模的研究,文中提出了一种新的文本语义编码算法 conv-RNN,该模型在参考了较为常用的文本语义编码模型循环神经网络与...
  • 神经网络模型RNN,以及改进的LSTM模型(long-shortterm memory)在对序列型数据建模有着很好的效果,例如用户的浏览历史或自然语言文本数据等。并且LSTM模型在训练时需要学习大量的参数,并且可解释性很差,这对用户...
  • 同时利用线性结构和依赖结构用于提取文本的序列特征和区域特征,并利用完整的词图进一步提取文本所有词对之间的隐式特征。使用基于图的方法,对重叠关系的预测比以前的顺序方法有了很大的改进。我们在两个公共数据集...
  • 下面以文档建模为例,简单介绍一下主题模型。 2.1 主题模型的“三个过程” 主题模型一般包含了三个重要的过程:生成过程、训练过程以及在线推断。生成过程定义了模型的假设以及具体的物理含义,训练过程...
  • OPNET可以图形化建模文本方式建模(EMA),两种方式各有优势,文档是EMA建模的一个详细教程,可以帮助初学者入门,如果要精通,还需要额外的大量练习。
  • 基于概率生成模型的文本主题建模及其应用,主要讲述LDA主题模型的应用。
  • 本文以中文文本数据作为分析对象,针对中文文本存在的特征进行文本预处理,并调用Gensim工具包实现对文本的TFIDF建模已经LDA建模,从文本中抽取出的特征进行表征文本信息,可用于后续文本相似度、个性化推荐等研究。...
  • spark中文文本分析建模(2.0.1)

    千次阅读 2017-01-08 11:54:14
    建模过程主要是把文本转化成向量然后再作分析 数据格式:0,善良 美丽 1,丑陋 阴险 卑鄙 0,温和 ....... 前面的是给文章贴的标签,后面是文章的分词,分词可以找关于分词的文章去查看,后面我也会写关于分词的...
  • 文中介绍了大规模文本网数据的主题建模研究的特点和近年来的重要进展.主题建模方法吸引了世界范围的广泛兴趣,并且促进了许多重要的数据挖掘、计算机视觉和计算生物应用系统的发展,包括文本自动摘要、信息检索、信息...
  • 基于UML的ACG翻译文本系统的建模.doc
  • 数学建模教程word文本

    2011-08-24 16:31:29
    第一章 模糊数学 第二章 整数规划 第三章 非线性规划 第四章 动态规划 第五章 图与网络(一) 第六章 图与网络(二) 第七章 变分法 第八章 层次分析法 附录matlab教程
  • 用主题建模识别文本模式-附件资源

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 70,010
精华内容 28,004
关键字:

文本建模