精华内容
下载资源
问答
  • PDF搜索

    千次阅读 2007-04-06 17:31:00
    过完年后就一直在忙,也没来得及更新blog,今天提前把工作完成,终于有空了。 前段时间在做一个pdf文档的搜索引擎,... 要搜索pdf文档,必须首先把pdf文档转换为文本文档后才能进行搜索,所以主要分以下几个步骤: 
            过完年后就一直在忙,也没来得及更新blog,今天提前把工作完成,终于有空了。
           前段时间在做一个pdf文档的搜索引擎,主要是为公司内部网站服务的。以前很少接触搜索 这方面的知识,一下子做起来感觉难度不小,不过有个开源的搜索框架Lucene,看了一下,感觉很是不错。
           要搜索pdf文档,必须首先把pdf文档转换为文本文档后才能进行搜索,所以主要分以下几个步骤:
           1.将PDF文档转换为文本文档
           2.为文本文档建立索引
           3.输入关键字进行搜索
           4.获得结果

           第一步,我用了一个pdftotext工具,程序调用这个工具后,就可以把指定的pdf文档转换为txt格式,但是这个工具不能解析加密的pdf文档。
           第二步,建立索引很关键,搜索的效率、速度就靠索引的质量,不过用lucene建立的还是很不错的,速度快,lucene建立索引的结构和数据库的表有些相似,它分为Field,Document。Field就相当于数据库表中的字段,Document相当于一条记录,也就是多个Field组成一个Document。我们可以有选择的对文档的每个部分建立索引。但生成一个Document对象后,就可以把它放到IndexWriter中去了。IndexWriter就是用来建立索引的核心类。调用IndexWriter的addDocument方法,将Document对象装入。之后调用optimize方法生成索引,生成的索引可以保存到磁盘上,也可以放入内存中。最后不要忘了close。
          第三步,建好了索引,查询就方便了。Lucene将查询的关键词放到Term对象中,建立查询对象TermQuery,TermQuery接受的就是Term对象。负责搜索的是IndexSearcher对象,需要告诉它索引的位置,如果索引在磁盘上,就需要给它传递FSDirectory对象,这个对象指定了索引的位置,如果是在内存中,就需要RAMDirectory对象。之后调用IndexSearcher的search方法,给它传递TermQuery或其他Query对象,就可以搜索了。Lucene还内置了不少分析方法Analyzer,用来对关键字进行分析,并提供了对中文的支持。但我感觉因为中文的意义太复杂,其中提供的Analyzer还不能很好的对中文做全面准确的分析,真是遗憾那!
         第四步,Lucene用Hits对象来存储搜索结果,调用hits的doc方法,就可以过得Document对象,在对Document对象进行分解,就可以获得具体的信息了。当然,Hits不仅仅能存储结果,还可以对查询效率做分析。
          如果你想像google那样对搜索关键字高亮后显示到网页上,可以用lucene2.0提供的HighLighter类,的确很方便

          以上就是我的一个总结,太笼统了,要想更好的了解lucene,看Lucene in action这本书,还有网上有不少好的资料。OK,就到这。
    展开全文
  • 配置SumatraPDF反向搜索

    千次阅读 2019-05-12 22:18:06
    SumatraPDF设置->选项->设置反向搜索命令 对于Notepad++,使用命令 "C:\Program Files (x86)\Notepad++\notepad++.exe" -n%l "%f" 对于vscode,使用命令 "C:\Program Files\Microsoft VS Code\code.exe" -r -...

    SumatraPDF设置->选项->设置反向搜索命令

    对于vscode,使用命令

    "C:\path to vscode\code.exe" -r -g "%f":%l
    

    对于vim,使用

    "C:\path to vim\gvim.exe" "%f" +%l
    

    当然,其中的路径按照你自己的安装路径来了。

    展开全文
  • SumatraPDF反向搜索命令行设置

    千次阅读 2018-12-24 21:42:22
    SumatraPDF反向搜索命令行设置   双击PDF中的任意一处即可跳转到VSCode中所对应的内容的源代码处(比如双击PDF跳转到对应tex文件的行上)。 (注意: 由于从vscode调用SumatraPDF时是作为子进程的,为避免反向...

    SumatraPDF反向搜索命令行设置

     

    双击PDF中的任意一处即可跳转到VSCode中所对应的内容的源代码处(比如双击PDF跳转到对应tex文件的行上)。

    (注意: 由于从vscode调用SumatraPDF时是作为子进程的,为避免反向搜索失败,最好是先独立的运行SumatraPDF.exe后再进行正反向搜索。)
    打开SumatraPDF,进入设置->选项 对话框,在“设置反向搜索命令行”处(即双击PDF文件时,应运行的命令)填入如下内容:
    "C:\Program Files\Microsoft VS Code\Code.exe"  -g "%f:%l"


    附:用notepad++则如下配置
    "C:\Program Files (x86)\Notepad++\notepad++.exe" -n%l "%f"

    展开全文
  • 5个值得收藏的常用PDF电子书搜索网站

    万次阅读 多人点赞 2019-05-09 15:59:59
    1,搬书匠... 2,众人搜索网http://dianzishu.renrensousuo.com/ 3,鸠摩搜索https://www.jiumodiary.com/ 4,红黑联盟-读书频道http://book.2cto.com/ 5,虫部落http://chongbuluo.99lb.net/ ...

    1,搬书匠http://www.banshujiang.cn/
    在这里插入图片描述

    2,众人搜索网http://dianzishu.renrensousuo.com/
    在这里插入图片描述

    3,鸠摩搜索https://www.jiumodiary.com/
    在这里插入图片描述

    4,红黑联盟-读书频道http://book.2cto.com/
    在这里插入图片描述

    5,虫部落http://chongbuluo.99lb.net/
    在这里插入图片描述

    欢迎关注我的公众号【panda一块砖】,将会不定时发布电子书资源。
    在这里插入图片描述

    展开全文
  • 如何创建可搜索PDF文档

    千次阅读 2017-10-27 10:01:12
    创建可搜索PDF文档,目前主要有两种方法:一是利用精益的可搜索PDF数字化解决方案直接将纸质文件转成可搜索PDF文档,另一种则是利用专业的制作软件来执行,这些软件主要是利用光学文字识别(OCR)技术来达成转换...
  • 反向搜索即双击pdf预览文档时,可以跳转到该处的latex源码处。 设置方法: 打开SumatraPDF->设置->选项 在“请键入双击PDF文件时,应运行的命令”处填入以下命令(第一部分为texstudio安装位置): "D:\Program ...
  • Android实现搜索手机内的PDF文件

    千次阅读 热门讨论 2019-09-23 18:01:58
    最近在做结算功能,需要上传发票功能,发票有电子和图片发票...刚开始使用的文件管理器搜索手机内的PDF文件,在4.4系统上面打开文件管理器可以过滤掉非.pdf格式文件,在6.0及以上系统没有过滤掉,用的是intent打开u...
  • PDF Drive

    千次阅读 2019-02-15 09:24:18
    PDF Drive是一个免费的搜索引擎,允许您搜索,预览和下载数百万个PDF文件到您的设备。我们的抓取工具不断扫描万维网,将PDF文件添加到我们的数据库中。如果PDF文件从网络中撤回,则它们也会立即从PDF Drive搜索结果...
  • pdf文件你熟悉嘛?相信大家对这个文件不会陌生,办公中经常需要用的,但是pdf翻译的方法你会吗?如果需要将一份中文的pdf文件翻译成英文,你还要一句句的自己去翻译?别再用这样的慢方法了,今天小编为大家分享高效...
  • 文档: solr中文文档.pdf /apps/百度知道/solr中文文档.pdf .../Java搜索及网页爬虫视频教程/文档/Solr调研总结.docx 分享时间:2016-04-06 21:27分享用户:旅*背影文件大小:909KB文件类型:docx
  • 问题: 使用winEdt8.2 用PDFlatex进行编译,双击生成的PDF上的内容不能跳转到对应的文字处。 解决方法: winEdt编辑器最下面无--src标签,点击空的label处生成即可,如红圈所示
  • 有段时间没写东西了,最近也就做过这么个东东,就随便写写吧 ^^ phpdig是个好东东,他可以像google一样搜索网上的资源。从最基本的页面,到txt, word, excel, pdf,只要在系统中安装了一些特定软件后也都能搜了。...
  • python 搜索 PDF文件 内容

    千次阅读 2009-07-20 09:44:52
    我想做个小东东,需要读取pdf文件的文本内容,然后搜索某个关键词,返回这个关键词所在的页的页码,折腾我好几天了。首先看上了pypdf,啃了半天 洋文,发现这东西只能分割合并pdf文件,读取pdf文件的作者、标题等...
  • 但是,如果要直接为.pdf或.doc等文件建立索引并使其可搜索该怎么办?在HCM,ERP和电子商务等应用程序中有这种实时用例的需求。 在今天的这篇文章中我们来讲一下如何实现对.pdf或.doc文件的搜索。本解决方案使用于...
  • Vue项目中利用pdf.js实现pdf内容滑选文字展示与搜索功能 //pdf展示模板 <template> <iframe width="100%" height="100%" :src="`/static/pdf/web/viewer.html?file=${$store.state.pdfUrl.slice...
  • solr 搜索引擎如何添加pdf文档 进行索引 我试过了,可以添加pdf文件,可是只有文件的名称能搜索到,如何我要是通过文件的内容进行搜索呢,该怎么做,请各位指教
  • 4个最好的PDF搜索引擎

    千次阅读 2009-05-05 09:42:00
    今天刚刚发现的专业级PDF 搜索引擎,也是基于Google,与PDFGeni十分相似,收录有225,000,000 本Ebook,支持中文关键词。界面清爽,没有广告,搜索结果可选择浏览或直接下载,支持iPaper阅读器(不推荐,速度慢!) ...
  • (转)4个最好的PDF搜索引擎

    千次阅读 2013-07-21 17:24:04
    前几天,watsonxu 刚刚推荐过“12个实用的Word、PDF文档搜索引擎”,今天本人又发现一个巨好的专业水准PDF 搜索引擎,重点推荐给大家!借此机会将专业PDF 搜索引擎单独列出,并作简单的评测分析! 1、Search ...
  • 导读:近期要做一个根据... 排查后发现,当itext搜索的关键字在pdf文档中不存在时,就已经将结果返回到前台界面,这时itex读取的流还未关闭,导致pdf读取未结束,pdf文档才被损坏。 下面是读取pdf的操作,记录一下:
  • CTeX v2.8版本的一项重要功能是实现了TeX文档和PDF文件之间的正反向搜索,一般习惯称之为相互跳转。 这项功能是通过对synctex文件的解析实现的,由于现在PDF文件是主流,无论发表文章还是写作论文,最终都要以PDF...
  • PDF可以转换为CAD格式吗?怎么将PDF文件转换为CAD格式?相信不小小伙伴对这个问题都会存有疑问,毕竟我们经常会在工作中将CAD图纸文件转换为PDF格式,而在此将PDF转换为CAD格式,确实很多人都存有疑问的! 将CAD图纸...
  • asciidoctor-pdf 可以使用的参数

    千次阅读 2015-02-06 11:40:52
    asciidoctor-pdf可以把asciidotor文件生成pdf的库 其中-a参数描述的非常不清楚 通过搜索源码(使用doc.attr()方法读取参数),整理了一下,主要参数包括 pdf-style : 目前提供了两个值,default 和 asciidoctor。...
  • 如果有足够的空闲时间,可以逐个搜索大量的PDF。但是,有更高效的选择!在PDF Expert中,我们可以一次查找多个PDF中的单词或短语。对于使用文档的人来说,这可以节省大量时间。 如何一次搜索多个PDF文档: 1、在PDF ...
  • 配置 SumatraPDF 在setting -&gt; options中的Set inverse search command-line 配置 "YourselfPath\TeXstudio\texstudio.exe" "%f" -line %l 配置texstudio 在Options-&gt;...
  • nutch搜索本地pdf文件

    千次阅读 2011-07-27 20:39:19
    1.nutch把索引映射到solr,一定注意solrj的jar包版本一定要保持一致,不然...我在用nutch1.3时,将索引映射到solr1.4.1时,就报版本不一致的错了,将solr换成3.1就好了用nutch1.2时,可以将索引映射到solr1.4.1,但不能
  • 谷歌学术搜索 简易PDF爬虫

    千次阅读 2016-01-12 14:12:16
    所以我就开始了爬虫的学习,之前虽然接触过,但从来没有自己打过爬虫程序,反正是学习为主,所以我就决定自己去学习爬虫技巧,本次带来的就是我自己编的一个谷歌学术搜索的爬虫,它会自动下载谷歌学术上面的PDF。...
  • 顾名思义,pdfgrep 是一个可以在不打开文件的情况下搜索 PDF 中的文本的小命令行程序。它非常快速 —— 比几乎所有 PDF 浏览器提供的搜索更快。-- Bruno Edoh本文导航◈ 安装26%◈ 测试运行38%◈ 其它62%◈ 总结...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 115,495
精华内容 46,198
关键字:

如何让pdf可以搜索