精华内容
下载资源
问答
  • xpdf使用

    千次阅读 2019-11-15 13:34:43
    通过XPDF读取PDF内容并转化为txt格式 地址:http://www.xpdfreader.com/pdftotext-man.html 下载这三个压缩包 直接运行.run文件,记得加x权限 解压语言包到当前目录 我的为/usr/xpdf/下,等会配置文件...

    通过XPDF读取PDF内容并转化为txt格式

    地址:http://www.xpdfreader.com/pdftotext-man.html

    下载这三个压缩包

    直接运行.run文件,记得加x权限

    解压语言包到当前目录

    我的为/usr/xpdf/下,等会配置文件需要这个路径

    语言包解压后解压命令行工具包,进入该文件夹结构大致如下

    还是根据你的系统选择bin64或者32

    我这里只需要pdf内容转txt格式的,所以将pdftotext放到xpdf文件夹下即可

    然后进入该文夹里的doc,将sample-xpdfrc放到xpdf文件夹下并改名xpdfrc

    至此xpdf文件夹内目录结构如下

    编辑xpdfrc添加如下内容:

    textEncoding        UTF-8
    textPageBreaks no

     

    #launchCommand  viewer-script
    #----- begin Chinese Simplified support package (2011-sep-02)
    cidToUnicode    Adobe-GB1    /usr/xpdf/xpdf-chinese-simplified/Adobe-GB1.cidToUnicode
    unicodeMap    ISO-2022-CN    /usr/xpdf/xpdf-chinese-simplified/ISO-2022-CN.unicodeMap
    unicodeMap    EUC-CN        /usr/xpdf/xpdf-chinese-simplified/EUC-CN.unicodeMap
    unicodeMap    GBK        /usr/xpdf/xpdf-chinese-simplified/GBK.unicodeMap
    cMapDir        Adobe-GB1    /usr/xpdf/xpdf-chinese-simplified/CMap
    toUnicodeDir            /usr/xpdf/xpdf-chinese-simplified/CMap
    #fontFileCC    Adobe-GB1    /usr/..../NotoSansCJKsc-Regular.otf
    #----- end Chinese Simplified support package

    执行./pdftotext xxx.pdf  xxx.txt    如果不加xxx.txt将使用原文件名

    记得给文件相应的权限如执行权等

    展开全文
  • xpdf实现pdf读取

    2016-11-15 10:24:05
    xpdf 读取pdf
  • xpdf-4.00源码

    2019-01-15 18:40:14
    xpdf-4.00的源代码,最新,可下载,可实现源码安装。。。
  • xpdf和font字体包

    2018-09-11 14:48:54
    xpdf和font字体包
  • xpdf-tools-win

    2017-10-17 09:32:51
    xpdf用来实现读取pdf内容,xpdf-chinese-simplified搭配使用
  • PHP读取PDF文件, 仅支持 Thread Safety 版本的 PHP 5.5.x / 5.6.x / 7.0.x / 7.1.x / 7.2.x, 将对应的版本 php_xpdf.dll 复制到 PHP ext 目录下。 编译采用版本分别为 5.5.38 / 5.6.40 / 7.0.33 / 7.1.26 / 7.2.14 ...
  • xpdf的资源.rar

    2019-07-19 11:43:30
    官方的xpdf的运行命令行,tools还有中文支持包,
  • xpdf-win64.zip

    2021-02-14 19:31:39
    xpdf-tools-win-4.03 and XpdfReader-win64-4.03.
  • PDF文字提取工具 xpdf_pdftotext 已经配置好配置文件 pdftotext ? Portable Document Format (PDF) to text converter (version 4.03) http://www.xpdfreader.com/pdftotext-man.html 通过XPDF读取PDF内容并转化为...
  • xpdf-chinese-simplified.zip

    2020-07-08 09:32:34
    xpdf-chinese-simplified.zip
  • xpdf-chinese-simplified

    2019-04-18 19:45:51
    swftools 中文文件字体库,转码库,因为SWFTools:是 国外的软件,对中文支持不是很好,开发的时候需要拓展中文字库 ,xpdf-chinese-simplified
  • QT编译Xpdf

    2021-04-08 23:14:29
    下载xpdf源码。复制以下文件到xpdflib文件夹中,其中aconf.h.in修改文件名为aconf.h。 再将aconf.h修改为下面所示(我这里没有使用Little CMS,如有需要,请自行添加源文件并将以下文件中相应的条件编译改为#...

    这里使用Xpdf源码实现pdf阅读器,纯源码编译,无需dll,无需安装第三方pdf阅读器。

    先参考本博客的《QT编译bzip2和zlib》、《QT编译libpng》、《QT编译FreeType和Little CMS》完成这些依赖库的编译。

    下载xpdf源码。复制以下文件到xpdflib文件夹中,其中aconf.h.in修改文件名为aconf.h。

    再将aconf.h修改为下面所示(我这里没有使用Little CMS,如有需要,请自行添加源文件并将以下文件中相应的条件编译改为#define HAVE_LCMS 1)。

    /*
     * aconf.h
     *
     * This file is modified by cmake.
     *
     * Copyright 2002-2015 Glyph & Cog, LLC
     */
    
    #ifndef ACONF_H
    #define ACONF_H
    
    #include <aconf2.h>
    
    /*
     * Use A4 paper size instead of Letter for PostScript output.
     */
    #define A4_PAPER 1
    
    /*
     * Do not allow text selection.
     */
    #define NO_TEXT_SELECT 0
    
    /*
     * Include support for OPI comments.
     */
    #define OPI_SUPPORT 1
    
    /*
     * Enable multithreading support.
     */
    #define MULTITHREADED 0
    
    /*
     * Enable C++ exceptions.
     */
    #define USE_EXCEPTIONS 1
    
    /*
     * Use fixed point (instead of floating point) arithmetic.
     */
    #define USE_FIXEDPOINT 1
    
    /*
     * Enable support for CMYK output.
     */
    #define SPLASH_CMYK 1
    
    /*
     * Enable support for DeviceN output.
     */
    #define SPLASH_DEVICEN 1
    
    /*
     * Enable support for highlighted regions.
     */
    #define HIGHLIGHTED_REGIONS 1
    
    /*
     * Full path for the system-wide xpdfrc file.
     */
    //@SYSTEM_XPDFRC_DEFINE@
    
    /*
     * Directory to use for the ${DATADIR} variable in the xpdfrc config
     * file.
     */
    //@XPDFRC_DATADIR_DEFINE@
    
    /*
     * Various include files and functions.
     */
    #define HAVE_MKSTEMP 1
    #define HAVE_MKSTEMPS 1
    #define HAVE_POPEN 1
    #define HAVE_STD_SORT 1
    #define HAVE_FSEEKO 1
    #define HAVE_FSEEK64 1
    #define HAVE_FSEEKI64 1
    #define _FILE_OFFSET_BITS 64
    #define _LARGE_FILES 1
    #define _LARGEFILE_SOURCE 1
    
    /*
     * This is defined if using FreeType 2.
     */
    #define HAVE_FREETYPE_H 1
    
    /*
     * This is defined if using D-Type 4.
     */
    #define HAVE_DTYPE4_H 0
    
    /*
     * This is defined if using libpaper.
     */
    #define HAVE_PAPER_H 0
    
    /*
     * This is defined if using libfontconfig.
     */
    #define HAVE_FONTCONFIG 0
    
    /*
     * Defined if the Splash library is avaiable.
     */
    #define HAVE_SPLASH 0
    
    /*
     * Defined if using lcms2.
     */
    #define HAVE_LCMS 0
    
    /*
     * Defined for evaluation mode.
     */
    #define EVAL_MODE 1
    
    /*
     * Defined when building the closed source XpdfReader binary.
     */
    #define BUILDING_XPDFREADER 0
    
    #endif
    

    最后将这些库的源文件,放在新建的QT工程目录中,我这里的工程名为Xpdf。

    先将lpng/pngtest.c删除,因为这里有main函数,会与xpdf的main函数冲突。

    再将xpdflib/xpdf文件夹中的下图的同名.cc文件的main函数屏蔽。

    因为这里的文件是分别对应一个命令行工具,所以每个.cc文件都包含了main函数。

    可以使用条件编译,像下面这样,也可以直接删掉。

    #if 0
    void main() {
    }
    #endif

    在.pro中添加(下面为一部分的pro文件,其中.c、.cc、.h等文件的信息没有贴出来,因为太多了)

    这里添加了QT += axcontainer,是因为xpdf使用了ole32.dll的函数,需要用到COM组件。

    QT += widgets
    QT += network
    QT += axcontainer
    CONFIG += c++11 console
    CONFIG -= app_bundle
    
    RESOURCES += \
        xpdflib/xpdf-qt/icons.qrc
    
    DISTFILES += \
        xpdflib/xpdf-qt/xpdf-icon.ico
    
    INCLUDEPATH += \
    freetype/include \
    lpng \
    xpdflib/fofi \
    xpdflib/goo \
    xpdflib/splash \
    xpdflib/xpdf \
    xpdflib/xpdf-qt \
    xpdflib
    

    其中运行的是xpdf.cc中的main函数。

    最终结果,如下图所示,生成了XpdfReader,可以打开pdf,显示书签。

    展开全文
  • 使用 xpdf 提取中文PDF文件内容的使用步骤使用 xpdf 提取中文PDF文件内容的使用步骤
  • 使用XPDF将PDF转换为HTML的操作步骤1、下载xpdf最新版本,我下载的是xpdf-3.02pl2-win32.zip2、下载中文支持包,我下载的是xpdf-chinese-simplified.tar.gz3、下载pdftohtml支持包,我下载的是:pdftohtml-0.39-win...

    使用XPDF将PDF转换为HTML的操作步骤

    1、下载xpdf最新版本,我下载的是xpdf-3.02pl2-win32.zip

    2、下载中文支持包,我下载的是xpdf-chinese-simplified.tar.gz

    3、下载pdftohtml支持包,我下载的是:pdftohtml-0.39-win32.tar.gz

    4、解压调试

    1) 先将xpdf-3.02pl2-win32.zip解压,解压后的`内容可根据需要进行删减,如果只需要转换为txt格式,其他的

    exe文件可以删除,只保留pdftotext.exe,以此类推;

    2) 然后将xpdf-chinese-simplified.tar.gz解压到刚才xpdf-3.02pl2-win32.zip的解压目录;

    3) 将pdftohtml-0.39-win32.tar.gz解压,pdftohtml.exe解压到xpdf-3.02pl2-win32.zip的解压目录;

    4) 目录结构:

    +---[X:xpdf]

    |-------各种转换用到的exe文件

    |

    |-------xpdfrc

    |

    +------[X:xpdfxpdf-chinese-simplified]

    |

    http://www.javaeye.com/forums 1.6 Word/Excel/PDF文件转换成HTML整理

    |

    +-------很多转换时需要用到的字符文件

    xpdfrc:此文件是用来声明转换字符集对应路径的文件

    5) 修改xpdfrc文件(文件原名为sample-xpdfrc)

    修改文件内容为:

    #----- begin Chinese Simplified support package

    cidToUnicode Adobe-GB1 xpdf-chinese-simplifiedAdobe-GB1.cidToUnicode

    unicodeMap ISO-2022-CN xpdf-chinese-simplifiedISO-2022-CN.unicodeMap

    unicodeMap EUC-CN xpdf-chinese-simplifiedEUC-CN.unicodeMap

    unicodeMap GBK xpdf-chinese-simplifiedGBK.unicodeMap

    cMapDir Adobe-GB1 xpdf-chinese-simplifiedCMap

    toUnicodeDir xpdf-chinese-simplifiedCMap

    fontDir C:WINDOWSFonts

    displayCIDFontTT Adobe-GB1 C:WINDOWSFontssimhei.ttf

    #----- end Chinese Simplified support package

    6) 创建bat文件pdftohtml.bat(放置的路径不能包含空格)

    内容为:

    @echo off

    set folderPath=%1

    set filePath=%2

    cd /d %folderPath%

    pdftohtml -enc GBK %filePath%

    exit

    http://www.javaeye.com/forums 1.6 Word/Excel/PDF文件转换成HTML整理

    7) 创建类

    public class ConvertPdf

    {

    private static String INPUT_PATH;

    private static String PROJECT_PATH;

    public static void convertToHtml(String file, String project)

    {

    INPUT_PATH = file;

    PROJECT_PATH = project;

    if(checkContentType()==0)

    {

    toHtml();

    }

    }

    private static int checkContentType()

    {

    String type = INPUT_PATH.substring(INPUT_PATH.lastIndexOf(".") + 1, INPUT_PATH.length())

    .toLowerCase();

    if (type.equals("pdf"))

    return 0;

    else

    return 9;

    }

    private static void toHtml()

    {

    if(new File(INPUT_PATH).isFile())

    {

    try

    {

    String cmd = "cmd /c start X:pdftohtml.bat "" + PROJECT_PATH + "" http://www.javaeye.com/forums 1.6 Word/Excel/PDF文件转换成HTML整理

    Runtime.getRuntime().exec(cmd);

    }

    catch (IOException e)

    {

    e.printStackTrace();

    }

    }

    }

    }

    String cmd = "....";此处代码是调用创建的bat文件进行转换

    8) 测试转换

    public static void main(String[] args)

    {

    ConvertPdf.convertToHtml("C:test.pdf", "X:xpdf");

    }

    【使用XPDF将PDF转换为HTML的操作步骤】相关文章:

    展开全文
  • xpdf windows字体

    2011-10-11 22:40:37
    xpdf windows下可使用的字体.....
  • xpdf安装流程简介

    2020-08-07 11:52:05
    我这边下载的是64位window系统,操作界面也是,工具语言选择的是中文简体。 ... 将xpdf-chinese-simplified文件复制到xpdf-tools-win...将xpdf-tools-win-4.02文件的doc目录下的sample-xpdfrc文件复制到xpdf-tools-win-

    下载地址:http://www.xpdfreader.com/download.html
    在这里插入图片描述
    我这边下载的是64位window系统,操作界面也是,工具语言选择的是中文简体。
    在这里插入图片描述
    使用命令行调用(操作界面安装非常简单,直接点击exe文件安装就行),只需要这两个文件。

    1. 将xpdf-chinese-simplified文件复制到xpdf-tools-win-4.02文件的bin64目录下;
    2. 将xpdf-tools-win-4.02文件的doc目录下的sample-xpdfrc文件复制到xpdf-tools-win-4.02文件的bin64目录下,并改名为xpdfrc;
    3. 将xpdf-tools-win-4.02文件下的部分文件复制到xpdf-tools-win-4.02文件的bin64目录下
      在这里插入图片描述
    4. 将xpdf-tools-win-4.02文件的bin64目录下xpdfrc文件打开,修改并添加以下参数
      在这里插入图片描述
    cidToUnicode Adobe-GB1 ./xpdf-chinese-simplified/Adobe-GB1.cidToUnicode
    unicodeMap ISO-2022-CN ./xpdf-chinese-simplified/ISO-2022-CN.unicodeMap
    unicodeMap EUC-CN ./xpdf-chinese-simplified/EUC-CN.unicodeMap
    unicodeMap GBK ./xpdf-chinese-simplified/GBK.unicodeMap
    cMapDir Adobe-GB1 ./xpdf-chinese-simplified/CMap
    toUnicodeDir ./xpdf-chinese-simplified/CMap
    

    在这里插入图片描述

    textEncoding		UTF-8
    textPageBreaks      no 
    

    至此,安装完毕,接下来进行测试,进入xpdf-tools-win-4.02文件的bin64目录,并在搜索框输出cmd
    在这里插入图片描述
    进入控制器,输入pdftopng.exe -f 1 -l 1 E:\xpdf\test.pdf .\test\test
    输入格式:.exe -f 页码 -l 页码 pdf文件地址 转储后图片储出地址
    在这里插入图片描述

    已配置完成的压缩包,直接解压使用

    ps:可能出现部分pdf转图片异常,原因是字体缺失,即pdf中的文字字体在现有文件中不包含,需要自己去下载字体并配置到文件中,典型例子,将pdf的发票转成图片,会出现发票文字没有转义成功,最终图片最有发票背景的问题。

    后续将结合java使用xpdf转义图片。

    展开全文
  • 1、下载xpdf最新版本,地址:http://www.foolabs.com/xpdf/download.html我下载的是xpdf-3.02pl2-win32.zip2、下载中文支持包我下载的是xpdf-chinese-simplified.tar.gz3、下载pdftohtml支持包地址:...
  • 如果不需要转中文的话,只需要下载它就可以:xpdf-bin-linux-3.03.tar,如果需要转中文,那你就还需要它了:xpdf-chinese-simplified.tar 二.安装 现在,下载完毕了吧,我们可以进行安装了。 [root@localhost ~]# ...
  • xpdf source code

    2011-12-22 14:00:50
    xpdf,跨平台的pdf解析器,可用于读取,显示,转换pdf文件 版本3.02.14
  • Xpdf Precompiled binaries

    2009-05-08 14:10:55
    Xpdf Language Support Packages
  • xpdf的基础上进行文件整合,最终形成现有的xpdf工具,需使用命令行进行功能调用,主要用于结合java等编程语言,在项目中实现对pdf转各类文件的作用
  • xpdf--xpdf-chinese

    2019-04-18 19:41:50
    swftools 中文文件字体库,转码库,因为SWFTools:是 国外的软件,对中文支持不是很好,开发的时候需要拓展中文字库
  • xpdf备忘

    2019-03-18 01:07:35
    NULL 博文链接:https://shappy1978.iteye.com/blog/592602
  • java代码xpdf实例

    2013-08-19 20:50:28
    xpdf实例,这是介绍的博客地址http://blog.csdn.net/jiuyueguang/article/details/10083965
  • xpdf的使用

    千次阅读 2014-05-14 17:44:17
    xpdf的安装: sudo apt-get install xpdf  参照:
  • windows下编译xpdf4.0.2

    2020-04-16 15:32:06
    windows下编译xpdf4.0.2 前言 xpdf是一个开源的pdf阅读器。本文将对如何在windows下用qt编译xpdf4.0.2做详细解释。 本文适合有QT基础的人阅读 源码下载 上 xpdf官网的下载页面下载 我下载的版本是4.0.2。 ...
  • Xpdf Source code

    2009-05-08 14:09:17
    Xpdf是一款开源的PDF浏览器。 对于移植到不同平台。
  • xpdf-font-example.zip

    2019-08-12 16:44:11
    Xpdf 是用来处理和转换 PDF 的利器。项目中需要将 PDF 转换为图片,但是发现有的 PDF 文档转换缺失字体,而且下载 ttf 格式的字体也不起作用,于是到官方文档才发现还需要配置字库,而且官方给出的是 pfb 格式的字库...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 739
精华内容 295
关键字:

Xpdf