精华内容
参与话题
问答
  • doc = word.Documents.Open(u'E:\\3\\减肥日记-副本.doc') # 目标路径下的文件 doc.SaveAs(u'E:\\code\\hhhhhhhh.docx', 16, False, "", True, "", False, False, False, False) # 转化后路径下的文件 doc....
  • 我使用gensim进行doc2vec的训练。 描述问题: 初次训练使用训练集:doc1、doc2。获得模型model1。 增量训练加载model1,使用训练集doc3、doc4。 虽然增量训练改变了model1中的doc1和doc2对应的向量,...
  • Swift中文教程DOC

    千次下载 热门讨论 2014-06-04 17:51:49
    Apple Swift编程语言入门教程 中文版本文档。主要通过实例讲解基础的语法
  • DocValues

    2019-05-19 11:11:57
    DocValues 在Lucene4.x之后,出现一个重大的特性,就是索引支持DocValues,这对于广大的solr和elasticsearch用户,无疑来说是一个福音,这玩意的出现通过牺牲一定的磁盘空间带来的好处主要有两个:(1)节省内存(2...

    DocValues 

    在Lucene4.x之后,出现一个重大的特性,就是索引支持DocValues,这对于广大的solr和elasticsearch用户,无疑来说是一个福音,这玩意的出现通过牺牲一定的磁盘空间带来的好处主要有两个: 
    (1)节省内存 
    (2)对排序,分组和一些聚合操作时能够大大提升性能 

    (一)什么是DocValues?

    什么是DocValues?

    DocValues其实是Lucene在构建索引时,会额外建立一个有序的基于document => field value的映射列表;

    (二)为什么要用DocValues?  

    基于lucene的solr和es都是使用经典的倒排索引模式来达到快速检索的目的,简单的说就是建立 搜索词=》 文档id列表 这样的关系映射, 
    然后在搜索时,通过类似hash算法,来快速定位到一个搜索关键词,然后读取其的文档id集合,这就是倒排索引的核心思想,这样搜索数据是非常高效快速的,当然它也是有缺陷的,假如我们需要对数据做一些聚合操作,比如排序,分组时,lucene内部会遍历提取所有出现在文档集合的排序字段然后再次构建一个最终的排好序的文档集合list,这个步骤的过程全部维持在内存中操作,而且如果排序数据量巨大的话,非常容易就造成solr内存溢出和性能缓慢。 

    基于这个原因,在lucene4.x之后出现了docvalue这个新特性,在构建索引时会对开启docvalues的字段,额外构建一个已经排 好序的文档到字段级别的一个列式存储映射,它减轻了在排序和分组时,对内存的依赖,而且大大提升了这个过程的性能,当然它也会耗费的一定的磁盘空间。 

    什么时候应该用DocValues?

     通过上面的剖析,散仙相信大家已经对DocValues有一个初步的了解了,至于它的应用场景,那么也非常明显了,总结起来主要以下几个方面: 
    1,需要聚合的字段,包括sort,agg,group,facet等 
    2,需要提供函数查询的字段 
    3,需要高亮的字段,这个确实能加速,但是散仙并不建议把高亮放在服务端程序做,建议放在前端实现,不容易出错而且总体性能比服务端高 
    4,需要参与自定义评分的字段,这个稍复杂,大多数人的场景中,不一定能用到,后面会单独写一篇文章介绍。 

    对于不需要参与上面任何一项的字段,可以选择关闭docvalues,这样可以节省一定的磁盘空间. 

     

    • DocValues的种类 

      在lucene的枚举类DocValuesType 中,我们可以看见它声明了六个常量: 
      1,  NONE  不开启docvalue时的状态 
      2,  NUMERIC  单个数值类型的docvalue主要包括(int,long,float,double) 
      3,  BINARY    二进制类型值对应不同的codes最大值可能超过32766字节, 
      4,  SORTED  有序增量字节存储,仅仅存储不同部分的值和偏移量指针,值必须小于等于32766字节 
      5,  SORTED_NUMERIC   存储数值类型的有序数组列表 
      6,  SORTED_SET     可以存储多值域的docvalue值,但返回时,仅仅只能返回多值域的第一个docvalue 

      通常有四种docvalue存储场景: 

      A: 字符串或UUID字段+单值 会选择SORTED作为docvalue存储 
      B: 字符串或UUID字段+多值 会选择SORTED_SET作为docvalue存储 
      C:数值或日期或枚举字段+单值 会选择NUMERIC 作为docvalue存储 
      D:数值或日期或枚举字段+多值 会选择SORTED_SET作为docvalue存储 

      注意,分词字段存储docvalue是没有意义的 

      (五)如何在Lucene,Solr,ElasticSearch中使用DocValues? 

    说完了概念方面的东西,下面来点实例的例子,来看下如何给索引加上docsvalue,只要加上docvalues后,排序,分组,聚合的时候 
    会自动使用docvalue提速,所以我们关注的重点是如何激活docvalue。 

    1,在原生Lucene中使用DocValues,这个稍麻烦,需要自定义组装,因为lucene是核心算法包,所以封装程度并不是很高,正是 
    由于这样,理解了lucene之后,再理解solr和elasticsearch是非常easy的。 

    下面是在lucene中存储docvalue例子,一个是string类型,一个是数值类型,分词类型在这里没有意义,不再提及: 

    Java代码  

    1. //数值存储例子  
    2.   FieldType num=new FieldType();  
    3.   num.setStored(true);//设置存储  
    4.   num.setIndexOptions(IndexOptions.DOCS);//设置索引类型  
    5.   num.setNumericType(NumericType.DOUBLE);//数值类型  
    6.   num.setDocValuesType(DocValuesType.NUMERIC);//DocValue类型  
    7.   
    8.   Document doc=new Document();  
    9.   //添加string字段  
    10.   doc.add(new SortedDocValuesField("id",new BytesRef("01011")));  
    11.   //添加数值类型的字段  Float,Doule需要额外转成bit位才能存储,Interger和Long则不需要  
    12.   doc.add(new DoubleField("price", Double.doubleToRawLongBits(25.258), num));  



    如何读取: 

    Java代码  

    1. //读取索引文件  
    2.  DirectoryReader reader=DirectoryReader.open(FSDirectory.open(Paths.get(indexDir)));  
    3.  //如果有多个段需要merge成一个,获取第一个进行测试,本例中仅仅就有一个段  
    4.  SortedDocValues str = DocValues.getSorted(reader.leaves().get(0).reader(), "id");  
    5.  //数值类型  
    6.  NumericDocValues db = DocValues.getNumeric(reader.leaves().get(0).reader(), "price");  
    7.  //读取字符串类型的ByteRef然后打印其内容  
    8.  System.out.println("id:"+str.get(0).utf8ToString());  
    9.  //注意此处,要与类型对应,如果是Float,则需要Float.intBitsToFloat((int)db.get(0))进行位数还原  
    10.  System.out.println("price: "+Double.longBitsToDouble(db.get(0)));  
    11.  reader.close();  




    2,在Solr中docvalue默认是全部关闭,比较严谨,大家可酌情开启 

    Java代码  

    1. <fieldname="easy_money"type="double"indexed="true"stored="true"docValues="true"  />  



    3,在ElasticSearch中,默认docvalue全部激活,比较简单暴力,大家可酌情关闭一些不需要使用docvalue的字段,以节省磁盘空间 

    Java代码  

    1. "session_id":{"type":"string","index":"not_analyzed","doc_values":false}  

     

    引用地址:https://qindongliang.iteye.com/blog/2297280

    展开全文
  • restored from __doc__ """ SetSelection(n) Sets the selection to the given item n or removes the selection entirely if n == wxNOT_FOUND. """ pass 我的疑问是,为什么这个方法里面是空的...
  • maven下载source源码和doc

    千次阅读 2019-07-10 15:18:51
    问题: 某IDE里面点击某类文件,预查看对应的源代码,结果没有!!! 方法: // cd 进入项目目录下,然后执行如下命令即可: mvn dependency:sources -DdownloadSources=true -DdownloadJavadocs=true (END) ......

    问题:
    某IDE里面点击某类文件,预查看对应的源代码,结果没有!!!

    方法:

    // cd 进入项目目录下,然后执行如下命令即可:
    mvn dependency:sources -DdownloadSources=true -DdownloadJavadocs=true
    

    (END)

    展开全文
  • java使用poi读取doc和docx文件

    万次阅读 多人点赞 2016-07-22 10:53:02
    这几天在学习java io流的东西,有一个网友看到博客后问了一个问题,就是说他的doc文档为什么用我所说的方法死活就是乱码。 我一开始以为是他方法问题,结果自己试了之后发现和他的结果一样也是乱码。 于是...

    这几天在学习java io流的东西,有一个网友看到博客后问了一个问题,就是说他的doc文档为什么用我所说的方法死活就是乱码。

    我一开始以为是他方法问题,结果自己试了之后发现和他的结果一样也是乱码。

    于是在网上搜寻了一阵之后才发现原来doc文档和excel一样不能用普通的io流的方法来读取,而是也需要用poi,于是进行了一番尝试后,终于以正确的编码格式读取了这个doc文件。

    在网上搜索的过程中发现doc和docx的读取方法是不一样的,于是顺带也学了一下docx文件的简单读取。

    一、导包:
    doc文件的读取,需要导入poi-scratchpad的jar包和相关依赖包:
    这里写图片描述

    docx文件读取,需要导入poi-ooxml的jar包和相关依赖包:
    这里写图片描述

    我用的是maven构建项目,相关的依赖包会自动导入,maven导包配置如下:

     <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-ooxml</artifactId>
            <version>3.8</version>
        </dependency>
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-scratchpad</artifactId>
            <version>3.8</version>
        </dependency>
    

    二、读取文件的代码:
    1、doc文件读取简单示例:

    public static void readAndWriterTest3() throws IOException {
            File file = new File("C:\\Users\\tuzongxun123\\Desktop\\aa.doc");
            String str = "";
            try {
                FileInputStream fis = new FileInputStream(file);
                HWPFDocument doc = new HWPFDocument(fis);
                String doc1 = doc.getDocumentText();
                System.out.println(doc1);
                StringBuilder doc2 = doc.getText();
                System.out.println(doc2);
                Range rang = doc.getRange();
                String doc3 = rang.text();
                System.out.println(doc3);
                fis.close();
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    

    2、docx文件读取简单示例:

    public static void readAndWriterTest4() throws IOException {
            File file = new File("C:\\Users\\tuzongxun123\\Desktop\\aa.docx");
            String str = "";
            try {
                FileInputStream fis = new FileInputStream(file);
                XWPFDocument xdoc = new XWPFDocument(fis);
                XWPFWordExtractor extractor = new XWPFWordExtractor(xdoc);
                String doc1 = extractor.getText();
                System.out.println(doc1);
                fis.close();
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    

    //20171218修改
    我并没有在工作中操作过word,这篇博客也只是一时兴起所做,因此写的很简单。
    而最近陆续有朋友找我询问相关的问题,其中有好几个都在询问依赖包有哪些,为了避免一再回答这种问题,特将依赖包截图:
    这里写图片描述
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YyC68tDX-1602637866657)(https://blog.tzxcode.cn/images/copyright.png)]

    展开全文
  • renderdoc相关

    2020-02-01 15:34:01
    在移动端上使用很方便,比snapdragon ...RenderDoc 安装使用 首先安装,设置下对应安卓sdk,java sdk,在tools-setting-android中 然后开启手机的允许USB调试的开关,不同手机可能会有些不太一样,我用的一加...

    在移动端上使用很方便,比snapdragon profiler要好点,和Nsight调试桌面版差不多了。记录下自己使用的过程

    用上述相关工具主要用来分析竞品等,profile一下内容

    RenderDoc

    安装使用

    首先安装,设置下对应安卓sdk,java sdk,在tools-setting-android中

    然后开启手机的允许USB调试的开关,不同手机可能会有些不太一样,我用的一加手机,操作上感觉还行,之前用过小米,两个都推荐。renderdoc依赖的adb一般就在自己设置的安卓sdk中,可以通过进程定位下具体使用的是哪个文件。

    插上手机,在界面左下角,可以选择进行连接某个客户端,一般默认是local的也就是当前PC的连接。可以刷出手机,然后选择手机即可,一般可用之后,会显示remote server ready的字样。

    可能遇到的问题:

    1,左下角显示设备offline,然后你尝试连接的时候,会提示

    check remote server status

    而且一直在提示这个,我这里直接重启的手机就可以。其他的可以尝试adb关闭server重启server的操作

    这个时候建议自己查一下问题,可以查看下ddiagnostic看看具体执行的指令是什么,一般可以先看看adb devices看看设备有没有连接上。

    具体各个模块使用

    其实使用的几个窗口都在这里

    lauch application

    通过选择具体的执行的app,重启app,启动app之后才能进行截图等操作

    通过以下集中方式进行截帧操作

    双击相关截帧图,可以查看具体的draw call的操作,以及耗费时间,配合这个内容,可以查看到很多的内容。基本和nsight差不多了。

    Texture viewer

    贴图查看

    pipeline state

    渲染管线

    mesh viewer

    网格

     

    展开全文
  • spire.doc.free2.7.3生成word目录

    万次阅读 2020-08-11 11:47:16
    在poi3.13生成word文档的主体后,写入本地文件后,写上spire.doc.free2.7.3的生成目录的代码,通过读取已生成的word,加上目录后,然后再生成新的word,也可以直接覆盖生成 //创建文档对象 XWPFDocument document ...
  • Lucene DocValues索引文件详解

    千次阅读 2018-11-29 14:37:55
    解密DocValues索引的存储结构,为何正向索引能给搜索结果再处理带来更多可能性和不一样的体验。由哪里结构完成存储需求,相对FieldCache又有哪些优点?
  • Spring doc 替代swagger

    千次阅读 2020-05-18 10:24:42
    最近在spring看到的,spring要对api文档动手了,有些人说swagger不好用,其实也没那么不好用,有人说代码还是有点侵入性,这倒是真的,我刚试了springdoc可以说还是有侵入性但是也可以没有侵入性,这就看你对文档有...
  • spire.doc.free2.7.3添加页眉页脚

    万次阅读 2020-08-20 10:48:31
    import com.spire.doc.*; import com.spire.doc.documents.*; import com.spire.doc.fields.DocPicture; import com.spire.doc.fields.TextRange; public class InsertHeaderAndFooter { public static void main...
  • Renderdoc调试总结

    2020-06-20 09:02:10
    Renderdoc调试总结 https://www.jianshu.com/p/7587dc0a42f4 renderdoc调试总结 http://aicdg.com/renderdoc-hlsl/ λ 1 /renderdoc-hlsl/ ⌘ blogspace λ * Menu utf-8 web .html 1 home 2 my ...
  • RenderDoc Integration RenderDoc 集成 本文档主要是对Unity官方手册的个人理解与总结(其实以翻译记录为主:&amp;gt;) 仅作为个人学习使用,不得作为商业用途,欢迎转载,并请注明出处。 文章中涉及到的操作都...
  • PHPDoc 规范

    千次阅读 2019-04-22 10:12:41
    转载自 PHP 注释的艺术 —— phpDoc 规范 PHPDOC PHPDoc 是一个 PHP 版的 Javadoc。它是一种注释 PHP 代码的正式标准。它支持通过类似 phpDocumentor 这样的外部文档生成器生成 API 文档,也可以帮助一些例如 Zend...
  • Lucene8.0新特征 DocValues改进

    千次阅读 2018-12-25 13:28:33
    Lucene8.0新特征预告,继续优化DocValues,提升DocValues随机访问的性能。进一步讨论IndexedDISI的实现细节,以及如何服务DocValues。
  • doc批量转成docx(doc batch convert docx)

    千次阅读 2019-05-24 17:52:15
    随便新建个word打开. 使用Alt+F11打开内置vba ... 模块 在新窗口中粘贴复制如下代码 Sub ConvertDocToDocx() 'Updated by ExtendOffice 20181128 Dim xDlg As FileDialog Dim xFolder As Variant ...
  • doc 转 md

    千次阅读 2019-04-23 18:05:07
    有一个网站不错,在线转的, 它会把图片转成 base64编码,最好还是将图片保存一下,使用链接的方式,不然md文档太大。 ... 使用 unoconv 和 pandoc (抄的,未验证) # 安装工具 yum install -y unoconv pandoc ...
  • 在看spire.doc.free官网API文档时,没有找到修改目录字体的方法 只有生成目录的方法,但是生成的是西文字体,我专门去问了他们官网留下的技术人员的QQ,询问到了修改目录字体的使用代码 就是再次加载生成了目录后的文档,...
  • 基本概念 这两个概念比较像,所以大部分时候会放在一起说。 这两个概念源于Elasticsearch(后面简称ES)除了强大的搜索功能外,还可以支持排序,聚合之类...doc_values和fielddata就是用来给文档建立正排索引的。他...
  • ansible-doc

    2019-04-17 10:10:52
    查看模块说明 # ansible-doc module-name ansible-doc file ansible-doc copy ansible-doc get_url ansible-doc yum ansible-doc yum_repository ansible-doc cron
  • poi版本是poi-3.17 具体报错如下: ... if(file.getName().endsWith(".doc")){ try { FileInputStream stream =null; stream=new FileInputStream(file); WordExtractor word = new WordExtractor(stream);
  • sklearn+gensim︱jieba分词、词袋doc2bow、TfidfVectorizer

    万次阅读 多人点赞 2017-05-08 22:24:21
    分词这块之前一直用R在做,R中由两个jiebaR+Rwordseg来进行分词,来看看python里面的jieba. 之前相关的文章: R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解) R语言︱文本挖掘——jiabaR包与...
  • 用Python将doc文件批量转为docx文件

    万次阅读 2017-12-28 14:50:54
    工具下载地址http://download.csdn.net/download/zzti_erlie/10177909使用指南选中输入文件夹和输出文件夹填入输入文件夹和输出文件夹即可使用,有2种填入方式,这2种填入方式的路径分隔符不一致,请勿混用。...
  • win32com 读doc,doc表格

    千次阅读 2018-06-04 16:33:08
    #coding:utf-8import osimport win32comimport win32com.client as win32from Ltp import ltp_dbfrom win32com.client import Dispatch, constants#获取相对路径下所有word名称def listdir(path, list_name): for ...
  • 文章目录一、Doc2Vec模型1 、PV-DM2 、PV-DBOW二、gensim实现1、gensim实现Doc2Vec(IMDB数据集)2、gensim实现Doc2Vec(中文数据集)三、总结四、程序编写时遇到的错误:gensim包中相关函数说明: 一、Doc2Vec模型...
  • python doc转docx pypiwin32

    千次阅读 2020-10-19 11:19:50
    参考
  • 基于Doc2vec训练句子向量

    千次阅读 2018-05-15 18:15:48
    一.Doc2vec原理 二.代码实现 三.总结 &amp;nbsp; 一.Doc2vec原理 前文总结了Word2vec训练词向量的细节,讲解了一个词是如何通过word2vec模型训练出唯一的向量来表示的。那接着可能就会想到,有没有什么办法...
  • Lucene DocValues详解

    千次阅读 2017-03-07 00:10:39
    DocValues,人称正向索引,也是大家所认识的面向列存储。即通过文档编号与字段值在索引建立直接映射的关系,并存储。对DocValues我想你并不陌生,但我相信你对它并不算熟悉。接下来,我们将具体来看看它的存储结构、...
  • doc解析到数据库

    千次阅读 2019-07-26 16:15:39
    def docx_insert_data(): for files in os.listdir(path): print(files) if os.path.splitext(files)[1] == '.docx': try: word = Document(path + '/' + files) ...

空空如也

1 2 3 4 5 ... 20
收藏数 182,067
精华内容 72,826
关键字:

doc