精华内容
下载资源
问答
  • 使用Word Embedding构造文本摘要系

    千次阅读 2016-08-22 17:28:41
    本文介绍下我们在2014年底2015年初时,使用WordEmbedding思想来构造文本摘要的一些思路,其中包括一种异常简单的文本摘要实现思路,实验效果证明这种方法虽然简单,可能比传统的TFIDF方法还要简单,但是效果与比较...

    文本摘要是在信息泛滥的时代非常重要的工具,可以帮助用户快速判断文章内容主旨,并以此决定是否值得细看文章内容。

    本文介绍下我们在2014年底2015年初时,使用WordEmbedding思想来构造文本摘要的一些思路,其中包括一种异常简单的文本摘要实现思路,实验效果证明这种方法虽然简单,可能比传统的TFIDF方法还要简单,但是效果与比较复杂的方法是相当的。

    这里介绍我们做的其中两种方法,一种是非常简单的根据字Word Embedding直接叠加方式做摘要系统,另外一种是对HITS经过

    WordEmbedding改造的文本摘要思路

    |基于字WordEmbedding叠加的简洁文本摘要系统

    首先,我们可以使用Word2Vec等工具获得汉字的Word Embedding。然后对于某个文档进行分句,对于每个句子使用单字的Word Embedding直接累加获得句子的Word Embedding表示;

    然后,把每个句子的WordEmbedding直接累加获得整个文档的Word Embedding。如图1所示,这样文档和句子都以Word Embedding的低维度向量来表示,这个向量分别代表了文档和句子的语义信息。

                                                              1.根据句子wordEmbedding获得文档WordEmbedding

    接着,我们开始摘要句子抽取过程,其基本思路是非常简单的:哪些句子在语义上与文档整体语义更相似,那么就选哪些句子作为摘要句。

                                                                   2.摘要计算流程

    具体实现流程如图2所示。就是直接用每个句子的语义向量和文档整体语义向量来通过Cosine距离计算两者之间的距离,分值越大,说明这个句子在语义上越和文档整体语义越匹配,那么就越有代表性。当每个句子都算出和文档整体语义的语义相似性得分后,根据得分由高到低排序,并按需要输出一定数量的句子作为文档的摘要。

    怎么样,这个思路和具体实现是相当的简单吧,应该与最简单的TFIDF做摘要的思路相当甚至还要更简单些。

    |利用HITSWordEmbedding进行改造的摘要系统

    HITS是目前做摘要的所有方法里面,除了监督学习方法外,效果最能够代表主流成果的方法了。其思路是把句子之间的关系转换为图结构,然后在图结构上使用PageRank或者HITS等图挖掘算法,然后通过迭代运算找到权重最高的句子,并按照权重高低输出句子作为摘要。

    3.句子图

    3是把一篇包含5个句子的文档转换为图结构的示意图。每个句子是图中的一个节点,节点之间的边代表句子之间的语义相似性,用权值大小来表示,传统的方法是采用两个句子的TFIDF相似性来计算相似度,构造好图结构后,按照HITS算法思路迭代计算,最后每个节点会有最后的得分,按照得分高低输出句子即可。

    我们对HITS的改造体现在如何计算两个句子节点形成的边上,传统方法是采用TFIDF方法,我们考虑用两个句子的Word Embedding计算两个句子的相似性,就是同样用字的Word Embedding叠加形成句子的Word Embedding,然后通过Cosine距离来作为边的权值。改进思路也比较简单。这种改进的核心思想是:传统TFIDF计算句子相似性的时候,并不是语义级别的计算,而是字面的计算,但是如果采用Word Embedding,那么假设两个句子分别出现“计算机”和“电脑”,按照TFIDF是没有相似性得分的,但是按照Word Embedding是能够体现这种字面不匹配但是语义匹配的情况的。也即是这是语义级别的相似性计算。

    |实验效果

    我们使用的测试数据是哈工大的中文文本摘要数据集,根据这个数据集合,分别针对上文提出的基于字Word Embedding叠加的方式构造的文本摘要系统以及针对HITS提出的改进模型做了实验,实验结果如下:

     1 . 基于字向量叠加的文本摘要系统(段首句段尾句加大权重)

    2.基于HITS语义改造模型的文本摘要系统

    由此可见,尽管字向量叠加的文本摘要方式实现思路非常简单,但是与目前较好的HITS类方法比效果也还是不错的。对于HITS来说,经过语义改造的方法与TFIDF计算边的方法相比,效果并没有明显提升,效果基本相当,这个我也没想明白是什么原因,因为按照简单思考,这种方式看上去应该比TFIDF效果好才对。

    我们与现有发表论文中使用了同一测试集合的文摘工作进行了对比,具体而言,参考的是谢浩在论文“基于段落-句子互增强的自动文摘算法”中的实验数据,在论文中,提到了使用LexRank这一目前标准对比方法以及谢浩提出的改进的句子-段落增强的方法。两种方法的实验数据如下:

    其中LexRank实验结果如下表:

      表 3 基于LexRank的自动文摘摘要结果统计表

    另外一种提出改进的句子-段落增强的方法实验结果统计如下表:

    表4 基于句子-段落增强方法文摘摘要结果统计表

    从对比实验可以看出,虽然这种实现起来非常简单的文本摘要系统思路简洁,但是在效果方面比起目前State-of-art的实现相对较复杂的LexRank或者HITS类思路来说,效果基本相当,但是因为其实现方法简单,甚至比最简单的传统的TFIDF类摘要实现起来还要方便,所以是一种非常具备实用价值的文本摘要工具。


    原文地址:http://blog.csdn.net/malefactor/article/details/51264244author: 张俊林,黄通文,薛会萍

    展开全文
  • 关于word2vec及文本相似性计算

    千次阅读 2018-08-28 17:56:03
    最近2个月主要涉及到对文本相似度计算方法的实验,用了 词频词袋模型、tfidf词袋表示、word2vec表示,利用一些标注好的数据对结果进行了检验,最终还是发现 tfidf相似度计算效果较好,但计算效率慢一些。 也看到...

    关于word2vec及文本相似性计算

    最近2个月主要涉及到对文本相似度计算方法的实验,用了 词频词袋模型、tfidf词袋表示、word2vec表示,利用一些标注好的数据对结果进行了检验,最终还是发现 tfidf相似度计算效果较好,但计算效率慢一些。
    也看到很多人说word2vec在相关语义计算方面有优势,不知道是不是我训练的模型有问题。。。有了解的大牛麻烦指点


    word2vec训练

    用的是python gensim中的Word2Vec来做的

    def model_train_word2vec():
        """
        训练word2vec
        :return:
        """
        #sentence=validation_data()
        model = gensim.models.Word2Vec(sentences=LineSentence("./data/news_train.txt"),size=1000,window=5,min_count=5,max_vocab_size=500000,workers=multiprocessing.cpu_count())
        model.save('./model/word2vec')
    

    这边训练数据90万篇新闻,取得词向量为1000,词典最多为50W,其余算是默认。用的是CBOW算法,没有SG是因为训练过程中看到SG比CBOW慢上不少,就先训练出来看一看效果。词向量为1000这里是基于训练的500 600 800 1500的向量 在计算的时候发现 1000出来的结果最好。

    TFIDF训练

    import pickle
    from sklearn.feature_extraction.text import TfidfVectorizer
    tfidf = TfidfVectorizer(max_features=500000)
    model = tfidf.fit_transform(sentences)#此处sentences为语料数据形式:[[],[],[]]
    with open("./model/tfidf","wb") as w:
        pickle.dump(tfidf,file=w)
    

    计算方法

    都用了余弦相似度计算
    TfIDF文本的表示 这里就不在多说 大家都知道
    word2vec 表示 方法 我用的是 文本中 每个词的词向量加和平均,这里可能就是造成不如tfidf的原因之一吧:下面是class

    import platform
    from gensim.models.word2vec import Word2Vec
    from similarity.distance import cosine,eculidean
    #similarity模块是我自己封装的 就是普通的numpy实现的距离函数
    OSNAME=platform.system()#获取当前操作系统名称
    class WordToVec(object):
        def __init__(self):
            self.w2v = self.load_w2v()
    
        def load_w2v(self):
            if OSNAME.__contains__("Win"):
                filePath = ROOTPATH + "\\model\\model_w2v_1000"
            else:
                filePath = ROOTPATH + "/model/model_w2v_1000"
            return Word2Vec.load(filePath)
    
        def word2vec_transform(self, sentence):
            """
            word2vec 转化句子为向量
            :param w2v:
            :param sentence:
            :return:
            """
            size = self.w2v.layer1_size
            data = sentence.split(" ")
            length = len(data)
            vec = np.zeros(shape=(1, size), dtype=np.float32)
            for word in data:
                try:
                    vec += self.w2v.wv[word]
                except:
                    length -= 1
                    continue
            vec = vec / length
            return vec
    
        def compute_cosine(self,s1,s2):
            vec1 = self.word2vec_transform(s1)
            vec2 = self.word2vec_transform(s2)
            return cosine(vec1,vec2)
    

    聚类数据为:人工标注好的类别数据,共有35类
    分词:jieba分词、基于tfidf值 提取文章TopK个关键词作为主体词
    参考评测指标文章:中科院计算所一学位论文:《文本聚类分析效果评价及文本表示研究》
    聚类的各项指标 与 分类的类似,主要有:
    (1)基于人工标注的类簇F值:CF
    (2)基于人工标注的文档查准、查全、F值:P,R,F
    (3)基于各个类的熵:E
    得到结果:
    这里写图片描述
    这里写图片描述
    此结果 我的感觉是 有点奇怪,不知道为啥在小阈值范围 tfidf的F值较高…

    PS:还做了word2vec WMD距离的实现,主要是简单的WCD距离,实践当中发现
    WCD距离的结果 与 word2vec加和平均表示的欧式距离是一样的,回头看看WCD的数学公式是不是可推导到加和平均欧氏距离

    后面的计划:
    (1)考虑一下word2vec训练方面的优化
    (2)文本表示方法的改进
    (3)距离计算改进

    再次拜求有相关经验的大牛指点!!!!!

    展开全文
  • C# 读取Word文档中的文本内容

    万次阅读 2018-04-13 18:01:10
    这篇文章将介绍如何使用C#读取Word文档中的全部或指定段落的文本内容

    C# 读取Word文档中的文本内容

    这篇文章将介绍如何使用C#和Free Spire.Doc组件读取Word文档中的文本内容。Free Spire.Doc提供了两种方法来读取Word文档中的内容,一种是直接获取文档中的所有文本内容,另一种是遍历文档中的节和其中的段落,然后获取段落中的文本,下面将逐一介绍这两种方法。

    Word文档截图:



    在使用以下代码前,需要先在Visual studio中创建一个C#应用程序,然后引用Spire.Doc.dll到程序中。

    方法一 直接获取所有文本

    //加载Word文档
    Document doc = new Document();
    doc.LoadFromFile("Input.docx");
     
    //使用GetText方法获取文档中的所有文本
    string s = doc.GetText();
     
    File.WriteAllText("文本1.txt", s.ToString());
    效果图:


    方法二 遍历段落获取文本

    //加载Word文档
    Document document = new Document();
    document.LoadFromFile(@"测试文档.docx");
     
    StringBuilder sb = new StringBuilder();
     
    //遍历节和段落,获取段落中的文本
    foreach (Section section in document.Sections)
    {
        foreach (Paragraph paragraph insection.Paragraphs)
        {
            sb.AppendLine(paragraph.Text);
        }
    }
     
    File.WriteAllText("文本2.txt",sb.ToString());
    效果图:



    总结

    这两种方法结果都差不多,第一种方法更简便,通过一个方法可以一次性获取文档中的内容,但第二种方法更灵活,可以获取到文档中指定节或指定段落中的文本,可以根据自己的需要选择相应的方法。

     

    展开全文
  • 如何将Word转化为Markdown文本

    千次阅读 2019-07-26 15:00:40
    可也有些不尽人意的地方,估计啥软件或工具都是这样,有时候Word有些功能还是很讨人喜欢的,当你的笔记使用word编辑而又想发至网上时,格式转换痛苦之至,本文给大家介绍两种将Word转化为Markdown文本的方法,为大家...

    前言

    Markdown文本使用起来固然方便,可也有些不尽人意的地方,估计啥软件或工具都是这样,有时候Word有些功能还是很讨人喜欢的,当你的笔记使用word编辑而又想发至网上时,格式转换痛苦之至,本文给大家介绍两种将Word转化为Markdown文本的方法,为大家提供便利。

    方法一 :Writage + Pandoc

    操作步骤如下

    1. 下载并安装 Writage,下载地址:http://www.writage.com/
      安装完成后,检查是否安装成功
    • 会在word标题栏看到其标签
    • 随便打开一个文件,点另存为,在文件类型中能找到.md格式

    在这里插入图片描述

    1. 下载并安装 Pandoc
    2. 使用word打开需要转换的文档,点击另存为,即可保存为Markdown格式

    方法二 :网站暴力转换

    https://word2md.com/
    使用这个网站可以直接将word转换格式,不过效果略差,大家可以自己体会下

    后记

    不管哪种方法,在word中都要将标题等格式设置好才能达到比较理想的结果

    展开全文
  • 如何用 html 做出 word 表格的效果

    千次阅读 2018-11-09 10:52:45
    要做出word表格的效果,其实主要就在文本输入框这么处理的问题,如果把文本输入框不加边框并且整个单元格都可以点击就行,还要兼顾web端和手机端浏览器的效果。为此,可以使用如下样式: .myInput{ width: 100%;...
  • 设置word文本代码高亮

    千次阅读 2011-01-11 14:31:00
    使用word新建样式,实现代码高亮显示效果
  • 使用Word Embedding构造简洁有效的文本摘要系统

    万次阅读 热门讨论 2016-04-28 19:27:54
    本文介绍了使用Word Embedding进行摘要提取的一种非常简洁的方法。
  • CSS3文本效果总结

    千次阅读 2020-09-03 19:01:59
    text-shadow 文本阴影 text-shadow具有的属性和描述 属性 描述 h-shadow 必需。水平阴影的位置。允许负值。 v-shadow 必需。垂直阴影的位置。允许负值。 blur 可选。模糊的距离。 color 可选。阴影的...
  • 以下是word里的设置:首先点击鼠标左键打开“文件”选项卡,选择“选项”:接着按如下操作:最后按“确定”按钮即可查看如上效果。在WPS中的操作:首先点在”开始“选项击鼠标左键,选择”选项“点击”视图”选项,...
  • show-word-limit 字数限制遮挡文本

    千次阅读 2020-10-12 11:01:11
    show-word-limit 字数限制遮挡文本 设置padding 效果
  • CSS3之文本换行word-wrap

    千次阅读 2013-10-10 08:42:04
    大家在制作的时候有时候会碰到英文文本超过固定宽度,不会自己换行的问题。...当CSS3出现的时候,我们就可以用CSS3之文本换行word-wrap来解决这个问题了。下面就为大家介绍一下CSS3之文本换行word-wrap吧。
  • 文本分类特征提取之Word2Vec

    千次阅读 2018-10-08 16:54:24
    文本分类就是根据文本内容将其分到合适的类别,它是自然语言处理的一个十分重要的问题。文本分类主要应用于信息检索,机器翻译,自动文摘,信息过滤,邮件分类等任务。   文本分类技术发展历史 1960-1970:...
  • //设置下划线样式以及突出显示文本 t.addNewPage(doc, BreakType.PAGE); t.testSetShdStyle(doc);//设置文字底纹 t.saveDocument(doc, "f:/saveFile/temp/sys_" + System.currentTimeMillis() + ".docx"); ...
  • CSS3字体与文本效果

    千次阅读 2016-11-15 20:48:12
    也多了一些不错的文本效果自定义字体使用自定义字体需要使用@font-face规则 当然首先你要有自定义文字文件<p class="demo">Payen S.Tsung</p>@font-face { font-family: myDIYfont; /*自定义字体名*/ src: url('...
  • 此类为操作word文本内容的具体实现类 package fcjTool; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.InputStream; import java.io....
  • 笔者寄语:2013年末,Google发布的 word2vec工具引起了一帮人的热捧,大家几乎都认为它是深度学习在自然语言领域的一项了不起的应用,各种欢呼“深度学习在自然语言领域开始发力 了”。 基于word2vec现在还出现了doc...
  • C# 为 Word 文档添加文本和图片水印

    千次阅读 2017-12-18 14:39:20
    word水印指的是在原word文档中添加...本文将详细描述如何使用Spire.Doc为Word文档添加图片水印或文本水印。 添加图片水印 //新建一个word文档对象并加载需要添加水印的word文档 Document document = new Document
  • 首行缩进:文本最左边插入一些空格,使得文本排版美观。 对多行文本同时首行缩进 添加空格前的效果: 选中要多行缩进的内容,右键点击"段落": 设置要缩进的大小,并观看效果:添加空格后的效果: 温馨提示: 喜欢...
  • 结果度娘了一会并没有发现有用的有效的解决方法,哎,看来还得靠自己啊。  首先整理了下手头上的资源,一是HtmlAgilityPack,专门解析Html文本用的;二是我有ASPOSE.Word。  再整理下思路:在Word中插入Html...
  • Ueditor富文本实现导入word功能

    千次阅读 2020-02-25 11:29:51
    提示:只是提供解决思路 最近因为项目需要,需要实现web端的word模板在线编辑功能,所以就了解了下富文本框的插件,最后选定百度的Ueditor,具体该插件有什么功能,可以到官网查看,DEMO地址:...
  • CSS文本样式和CSS3文本效果以及背景

    千次阅读 2018-07-13 23:29:47
    CSS文本样式 text-indent属性 text-indent属性可以为特定选项的文本进行首行缩进,取值可以是长度值或百分比,它的属性值通常使用em作为单位,text-indent: 2em;表示首行缩进两个字符。另外要注意的是text-...
  • 截图表格转可编辑Word文本教程

    千次阅读 2017-09-30 15:45:59
    我们知道,图片上的文字一般是不能编辑的,而在图片上编辑文字比较麻烦,要是需要图片中的文字,这时就需要将文字图片转换成Word或txt格式文档。那么,图片上的文字怎样才能转换成word的格式呢?如何将JPG、JPEG等...
  • C# 读取Word文档中的文本内容 这篇文章将介绍如何使用C#和Free Spire.Doc组件读取Word文档中的文本内容。Free Spire.Doc提供了两种方法来读取Word文档中的内容,一种是直接获取文档中的所有文本内容,另一种是遍历...
  • 本文主要介绍利用C#读取和写入Word内容的一般方法。 一、创建工程。 1.1 引入控制台Control  我们创建一个名叫WordTest的Windows窗体应用程序作为本次试验的工程,为了能够显示word中的内容,我们先要在下图所示的...
  • Word 2016 用宏实现「只保留文本」粘贴

    千次阅读 热门讨论 2018-10-21 19:34:43
    本文旨在用 Word 2016 (其他 Microsoft Office 部分产品中也附带)中自带的宏功能实现「只保留文本」粘贴的目的。 准备工作:显示「开发工具」选项卡 ① 单击「文件」选项卡; ②单击「选项」; ③单击「自定义...
  •  导出word生成文本数据、生成一张表都是soeasy,今天我这里记录的是生成文本和多张表。  废话不多说,先看看效果图:   这里使用的技术是SpringBoot + poi-tl ,poi-tl(poi template language)是...
  • 文本深度表示模型Word2Vec

    千次阅读 2015-11-26 15:27:21
    文本深度表示模型Word2Vec 简介 Word2vec 是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而...
  • word2vec找文本相似词小试牛刀

    千次阅读 2015-10-20 11:48:36
    word2vec作为google的一个开源工具,比较强大,效果也比较好,便试试。 一、工具 下载:http://word2vec.googlecode.com/svn/trunk/(翻墙) 也可以从CSDN下载:http://download.csdn.net/detail/hortond/8095703 ...
  • Word2vec——文本深度表示模型

    千次阅读 2016-04-26 11:45:55
    Word2vec 是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 93,838
精华内容 37,535
关键字:

word没有文本效果