精华内容
下载资源
问答
  • LCD1602PDF技术资料

    2009-05-29 12:25:02
    LCD1602PDF技术资料 LCD1602PDF技术资料 LCD1602PDF技术资料
  • PDF技术-Java实现Office系列文件转PDF文件 https://blog.csdn.net/qq_34190023/article/details/82999054

    PDF技术-Java实现Office系列文件转PDF文件

    https://blog.csdn.net/qq_34190023/article/details/82999054

    展开全文
  • Word 转 PDF 技术方案评测

    万次阅读 2019-07-31 13:55:20
    最近项目有个需求,要将用户上传的 word 文件转换成 pdf。 最开始是想用 PHP 的一些库来做,后来发现效果并不好。 然后找了一些linux(CentOS)上能使用的工具来进行转换,上线之后发现一些特殊类型的文档并不能很好...

    背景

    最近项目有个需求,要将用户上传的 word 文件转换成 pdf。

    最开始是想用 PHP 的一些库来做,后来发现效果并不好。

    然后找了一些linux(CentOS)上能使用的工具来进行转换,上线之后发现一些特殊类型的文档并不能很好的处理,然后就继续选择。

    最终选择

    先说结论,如果不对其他工具感兴趣,而且环境可以像我这样来做的话,直接如下配置即可:

    • 操作系统:Windows Server 2012
    • 工具:DocTo
    • 环境要求:需安装 MS Word

    评测标准

    一、运行环境

    1、Windows

    2、Linux

    3、Both

    二、依赖 Office

    1、需安装 office 套件

    2、可独立运行

    三、转换效果

    A:与使用 word 导出的 pdf 样式相同

    B:简单word,与使用 word 导出的 pdf 样式相同;复杂 word 样式会变换

    C:样式会变换

    评测结果

    点击表格标题,可以跳转到对应的网站

    DocTo OfficeToPDF Free Word to PDF Converter LibreOffice Aspose
    免费
    环境 Windows Windows Windows Both
    依赖 Office
    效果 A B C C
    其他优点 单独exe 单独exe 有GUI 完整的office套件
    其他缺点 - - 需要安装 -

    选择理由

    首先,收费的就 pass 了,虽然功能很强大,但是费用太贵。

    我之前选择的方案是用 LibreOfficeCentOS 上转换,后来发现效果实在是不能保证,就选择了 Windows 上的工具。

    Free Word to PDF Converter 的基础转换效果也是一般,放弃。

    OfficeToPDF 本来都已经选定了,各方面都符合要求,只是后面发现了一个问题,一个word里面的标题被标成黄色背景了。不知道这个具体原因是什么,是原始word的问题还是怎么的。用 MS Word 转换出来就没有这个背景。

    DocTo 已经是目前对我来讲完美的存在了。

    总结

    这个说是评测,其实很粗糙的,而且也都是结合我自己的使用场景。

    各位如果有需要的话,最好是自己适用一下。各个工具都有很多自己特色的东西,而且也不仅限于 word 转 pdf,大部分 excel 也都是能处理的。

    展开全文
  • PDF技术(四)-Java实现Html转PDF文件

    万次阅读 热门讨论 2018-10-10 16:56:12
    html转换为pdf的关键技术是如何处理网页中复杂的css样式、以及中文乱码处理。 各实现对比表 于Windows平台进行测试:   基于IText 基于FlyingSaucer 基于WKHtmlToPdf ...

    html转换为pdf的关键技术是如何处理网页中复杂的css样式、以及中文乱码处理。

    各实现对比表

    于Windows平台进行测试:

     

    基于IText

    基于FlyingSaucer

    基于WKHtmlToPdf

    基于pd4ml

    跨平台性

    跨平台

    跨平台

    跨平台

    跨平台

    是否安装软件

    需安装WKHtmlToPdf

    是否收费

    免费

    免费

    免费

    收费

    转换Html

    效率

    速度快

    未测

    速度慢。相比URL来说,效率较慢。能忽略一些html语法或资源是否存在问题。

    速度快。部分CSS样式不支持。

    效果

    存在样式失真问题。

    对html语法有一定要求

    存在样式失真问题。对html语法有较高要求。

    失真情况较小

    大部分网页能按Chome浏览器显示的页面转

    部分CSS样式有问题。

    转换URL

    效率

    未测

    未测

    效率不是特别高

    未测

    效果

    未测

    未测

    部分网页由于其限制,或将出现html网页不完整。

    未测

    优点

    不需安装软件、转换速度快

    不需安装软件、转换速度快

    生成PDF质量高

    不需要安装软件、转换速度快

    缺点

    对html标签严格,少一个结束标签就会报错;

    服务器需要安装字体

    对html标签严格,少一个结束标签就会报错;

    服务器需要安装字体

     

    需要安装软件、时间效率不高

    对部分CSS样式不支持。

    评价

     

     

     

     

    综合:使用WKHtmlToPdf效果(样式)最好。但速度较慢(对于文件来说)。其余均有大大小小的失真问题。

     

     

    分页

    图片

    表格

    链接

    中文

    特殊字符

    整体样式

    速度

    IText

    支持

    支持

    支持

    支持

    支持

    支持

    失真问题

    FlyingSaucer

    未知

    未知

    未知

    未知

    未知

    未知

    未知

    WKHtmlToPdf

    支持

    支持

    支持

    支持

    支持

    支持

    很好

    pd4ml

    支持

    支持

    支持

    支持

    支持

    支持

    失真问题

    html网页完整转换为pdf,所有的方案均有不足。

    itext有时并不能满足需求,不能兼容html的样式,且从html页面导出的图片到pdf中也并不好处理。

    Flying Sauser实现html2pdf,纠错能力差,支持多种中文字体(部分样式不能识别),且对html的格式也是十分的严格,如果用一种模版的话用Flying Sauser技术倒是不错的选择,但对于不规则的html导出pdf就并不是那么的适用。

    PD4ML实现html2pdf,速度快,纠错能力强可以过滤不规则的html标记,支持多种中文字体,支持css。

    WKHtmlToPdf效果最好,但转换速度慢。

     

    1. wkhtmltopdf(速度慢、需要安装软件)

    wkhtmltopdf是一个用webkit网页渲染引擎开发的用来将html转成 pdf的工具,可跟多种脚本语言进行集成来转换文档,有windows、linux等平台版本。官网地址 http://wkhtmltopdf.org/

     

    技术特点

    Wkhtmltopdf可直接把浏览器中浏览的网页转换成一个pdf,他是一个把html页面转换成pdf的软件(需要安装在服务器上)。使用时可通过java代码调用cmd指令完成网页转换为pdf的功能。

    功能测试:

    直接在cmd里输入测试指令,可查看处理进度。

    https://images2017.cnblogs.com/blog/626790/201707/626790-20170728145110133-2123660962.png

    原理:

    使用wkhtmltopdf工具对url或html进行转换

    使用命令:

    Wkhtmltopdf  https:baidu.com  /usr/local/temp/baidu.pdf

    安装

    下载地址:https://wkhtmltopdf.org/downloads.html

    wkhtmltopdf安装方法

    1.解压wkhtmltox.tar到某个文件夹$DIR

    2.设置环境变量

    vim /etc/profile

    在最后一行加 export PATH=$DIR/wkhtmltox/bin:$PATH 保存退出、

    source /etc/profile

    3.运行 wkhtmltopdf 报wkhtmltopdf: error while loading shared libraries: libXrender.so.1: cannot open shared object file: No such file or directory这个错,请运行 apt-get/yum install libXrender*

    运行 wkhtmltopdf 报wkhtmltopdf: error while loading shared libraries: libfontconfig.so.1: cannot open shared object file: No such file or directory这个错,请运行apt-get/yum install libfontconfig*

    运行 wkhtmltopdf 报wkhtmltopdf: error while loading shared libraries: libXext.so.6: cannot open shared object file: No such file or directory这个错,请运行 apt-get/yum install libXext*

     

    运行 wkhtmltopdf

    yum install xorg-x11-fonts-75dpi.noarch

    yum install xorg-x11-fonts-Type1.noarch

    yum install icu.x86_64

    yum install libjpeg

    yum install libpng

     

    优点:

    支持中文、图片、CSS等

    缺点:

    有时对于html文件的转化可能比较慢,对于url的转化速度较快。存在失真情况

    具体实现:

    Java调用命令。

    public class HtmlToPdf {
    
        // wkhtmltopdf在系统中的路径
        private static String toPdfTool = Consts.WEB.CONVERSION_PLUGSTOOL_PATH_WINDOW;
    
        /**
         * html转pdf
         *
         * @param srcPath
         *            html路径,可以是硬盘上的路径,也可以是网络路径
         * @param destPath
         *            pdf保存路径
         * @return 转换成功返回true
         */
        public static boolean convert(String srcPath, String destPath) {
            File file = new File(destPath);
            File parent = file.getParentFile();
            // 如果pdf保存路径不存在,则创建路径
            if (!parent.exists()) {
                parent.mkdirs();
            }
            StringBuilder cmd = new StringBuilder();
            if (System.getProperty("os.name").indexOf("Windows") == -1) {
                // 非windows 系统
                toPdfTool = Consts.WEB.CONVERSION_PLUGSTOOL_PATH_LINUX;
            }
            cmd.append(toPdfTool);
            cmd.append(" ");
            cmd.append(" \"");
            cmd.append(srcPath);
            cmd.append("\" ");
            cmd.append(" ");
            cmd.append(destPath);
    
            System.out.println(cmd.toString());
            boolean result = true;
            try {
                Process proc = Runtime.getRuntime().exec(cmd.toString());
                HtmlToPdfInterceptor error = new HtmlToPdfInterceptor(proc.getErrorStream());
                HtmlToPdfInterceptor output = new HtmlToPdfInterceptor(proc.getInputStream());
                error.start();
                output.start();
                proc.waitFor();
            } catch (Exception e) {
                result = false;
                e.printStackTrace();
            }
    
            return result;
        }
    
        public static void main(String[] args) {
    //        HtmlToPdf.convert("http://www.baidu.com", "F:/pdf/baidu.pdf");
            String filename = "JAVA将图片转换成pdf文件-CSDN博客";
            HtmlToPdf.convert("F:/pdf/"+filename+".html", "F:/pdf/"+filename+".pdf");
    //        HtmlToPdf.convert("http://api.gyingyuan.com/", "F:/pdf/"+ UUID.randomUUID().toString()+".pdf");
    //        HtmlToPdf.convert("https://www.aliyun.com/jiaocheng/285649.html", "F:/pdf/baidu.pdf");
        }
    }
    public class HtmlToPdfInterceptor extends Thread {
        private InputStream is;
    
        public HtmlToPdfInterceptor(InputStream is){
            this.is = is;
        }
    
        @Override
        public void run(){
            try{
                InputStreamReader isr = new InputStreamReader(is, "utf-8");
                BufferedReader br = new BufferedReader(isr);
                String line = null;
                while ((line = br.readLine()) != null) {
                    System.out.println(line.toString()); //输出内容
                }
            }catch (IOException e){
                e.printStackTrace();
            }
        }
    }

    效果:

    URL转换

     

     

    对于url转会遇到一些网站限制的问题。

    https://blog.csdn.net/m0_38138387/article/details/79314260

    如果转为html则效率较慢,但能很大程度比较完美地转换

    文件转换:速度较慢,失真情况比较小

    68.225s

     

    2. PhantomJS(样式有问题,需要安装软件)

    PhantomJS是一个基于webkit内核的无头浏览器,即没有UI界面,即它是一个浏览器,只是其内的点击、翻页等人为相关操作需要程序设计实现。它提供javaScript API接口,即通过编写JS程序可以直接与webkit内核交互,在此之上可以结合java语言等,通过java调用js等相关操作,从而解决了以前c/c++才能比较好的基于webkit开发优质采集器的限制。它同时提供windows、linux、mac等不同os的安装使用包,也就是说可以在不同平台上二次开发采集项目或是自动项目测试等工作。官网地址http://phantomjs.org/

    PhantomJS可做网页分析,功能很多,本次仅调用网页的截图功能。在cmd中的测试如下:

    https://images2017.cnblogs.com/blog/626790/201707/626790-20170728151542321-313520.png

    URL转

    测试效果并没有wkhtmltopdf好。

    html2pdf.js

    var page = require('webpage').create();
    var system = require('system');
     
    读取命令行参数,也就是js文件路径。
    if (system.args.length === 1) {
      console.log('Usage: loadspeed.js <some URL>');
    //这行代码很重要。凡是结束必须调用。否则phantomjs不会停止
      phantom.exit();
    }
    page.settings.loadImages = true;  //加载图片
    page.settings.resourceTimeout = 30000;//超过10秒放弃加载
    //截图设置,
    //page.viewportSize = {
    //  width: 1000,
    //  height: 3000
    //};
    var address = system.args[1];
    page.open(address, function(status) {
    	
    	function checkReadyState() {//等待加载完成将页面生成pdf
            setTimeout(function () {
                var readyState = page.evaluate(function () {
                    return document.readyState;
                });
     
                if ("complete" === readyState) {
                    
    				page.paperSize = { width:'297mm',height:'500mm',orientation: 'portrait',border: '1cm' };
    				var timestamp = Date.parse(new Date());
    				var pdfname = 'HT_'+timestamp + Math.floor(Math.random()*1000000);
    				var outpathstr = "E:/POMFiles/HTPDF/"+pdfname+".pdf";
    				page.render(outpathstr);
    				//page.render("c://test.png");
    				//console.log就是传输回去的内容。
    				console.log("生成成功");
    				console.log("$"+outpathstr+"$");
    				phantom.exit(); 
    				
                } else {
                    checkReadyState();
                }
            },1000);
        }
        checkReadyState();
    });
    

    PhantomJS对bootstap的样式支持较好。对css3的新特性如圆形图片样式支持行不好。部分页面样式会失效。对于echart图表展示,也可直接导出

     

     

    3. IText(技术老旧,对样式不支持)

    iText是一个第三方报表java插件,可以在后端利用java随意生成、转化pdf文件,提供了很多api,比较灵活

    IText实现html2pdf,速度快,纠错能力差,支持中文(要求HTML使用unicode编码),但中支持一种中文字体,开源。

    原理:

    使用IText将HTML文件转化为PDF文件

    优点:

    速度快,支持中文(要求HTML使用unicode编码)、开源

    缺点:

    纠错能力差,

    对CSS样式支持不是很好。

    失真情况可能比较大

    具体实现:

    <dependency>
        <groupId>org.eclipse.birt.runtime.3_7_1</groupId>
        <artifactId>com.lowagie.text</artifactId>
        <version>2.1.7</version>
    </dependency>
    <dependency>
        <groupId>org.xhtmlrenderer</groupId>
        <artifactId>flying-saucer-pdf</artifactId>
        <version>9.0.8</version>
    </dependency>
    <dependency>
        <groupId>com.itextpdf</groupId>
        <artifactId>itextpdf</artifactId>
        <version>5.4.2</version>
    </dependency>
    

    Java代码

    ITextRenderer renderer = new ITextRenderer();
    ITextFontResolver fontResolver = renderer.getFontResolver();
    fontResolver.addFont("/Users/hehe/share/Fonts/simsun.ttc", BaseFont.IDENTITY_H, BaseFont.NOT_EMBEDDED);
    OutputStream os = new FileOutputStream("/Users/hehe/Desktop/iTextPDF.pdf");
    String htmlstr = HttpHandler.sendGet("http://localhost:10086/test/iTextPDF.html");//HttpHandler.sendGet只是单纯获得指定网页的html字符串内容
    renderer.setDocumentFromString(htmlstr);
    renderer.layout();
    renderer.createPDF(os);
    

    以上只是简单利用html字符串来生成pdf,需要注意的是: 
    1、如果页面中有中文,服务器端需要下载字体库simsun.ttc,在后台进行引用,同时在页面的样式中加入对应字体的定义,如:body{font-family: SimSun;},否则中文无法渲染(中文处渲染出来的效果是空白); 
    2、页面中如果有图片,如果图片引用是绝对路径或者base64则不用考虑,如果是相对路径,需要在后台用renderer.getSharedContext().setBaseURL("图片绝对路径目录");来指定图片路径,否则图片无法渲染。 
    3、要转化的页面必须是标准的XHTML页面,有一处不符合规范就会报错,小编再试的时候就经常报诸如org.xml.sax.SAXParseException;lineNumber: 24; columnNumber: 6;元素类型 "span" 必须由匹配的结束标记 "</span> 终止"之类的错误,所以如果要用iText来大量爬取网络中的页面的话,还是放弃吧,毕竟网上很多页面都是不标准的~

    public class HtmlToPdfUtils {
        /*** 默认中文字体   */
        private static final String FONT = "C:\\Windows\\Fonts\\simhei.ttf";
        public static void htmlToPdf(String sourcePath,String tagetPath) throws IOException {
            htmlToPdf(sourcePath,tagetPath,FONT);
        }
        public static void htmlToPdf(String sourcePath,String tagetPath,String fontPath) throws IOException {
            htmlToPdf(sourcePath,tagetPath,fontPath,PageSize.TABLOID);
        }
        public static void htmlToPdf(String sourcePath,String tagetPath,String fontPath,PageSize pageSize) throws IOException {
            // 默认source路径下装载有css、image、以及html等文件的文件夹
            htmlToPdf(sourcePath,tagetPath,fontPath,pageSize,FileUtils.GetFilePath(sourcePath));
        }
        public static void htmlToPdf(String sourcePath,String tagetPath,String fontPath,PageSize pageSize,String baseuri) throws IOException {
            PdfWriter writer = new PdfWriter(tagetPath);
            PdfDocument pdf = new PdfDocument(writer);
    
            pdf.setTagged();
            // 设置pdf页面大小
            pdf.setDefaultPageSize(pageSize); 
            ConverterProperties properties = new ConverterProperties();
            FontProvider fontProvider = new DefaultFontProvider();
            // 字体
            FontProgram fontProgram = FontProgramFactory.createFont(fontPath);
            fontProvider.addFont(fontProgram);
            properties.setFontProvider(fontProvider); 
            //properties.setBaseUri(html);
            properties.setBaseUri(baseuri); 
            MediaDeviceDescription mediaDeviceDescription = new MediaDeviceDescription(MediaType.SCREEN);
            mediaDeviceDescription.setWidth(pageSize.getWidth());
            properties.setMediaDeviceDescription(mediaDeviceDescription); 
            // 转化
            convertToPdf(sourcePath,pdf, properties);
        }
    
        private static void convertToPdf(String sourcePath,PdfDocument pdf,ConverterProperties properties ) throws IOException {
            InputStream inputStream = new FileInputStream(sourcePath);
            // 转化
    //        HtmlConverter.convertToPdf(new FileInputStream(sourcePath), pdf, properties);
            HtmlConverter.convertToPdf(inputStream, pdf, properties);
            inputStream.close();
        }
        public static void main(String[] args) throws IOException {
            htmlToPdf("F:\\pdf\\1.html","F:\\pdf\\est-04.pdf");
        }
    }
    

     

    效果:

    Converting HTML to PDF _ iText Developers.html

    消耗时间:3660

    CSS样式丢失:

     

    JAVA 将图片转换成pdf文件 - CSDN博客.html

    消耗时间:7609

    样式同样丢失问题

    itext html转pdf布局问题_百度搜索.html

    消耗时间:5485

     

    4. Flying Sauser(技术老旧,对样式不支持)

    Flying Sauser实现html2pdf,纠错能力差,支持中文、支持简单的页面和样式,开源

    对html代码要求很严格。极易出现中文乱码问题

     

    优点:

    支持多种中文字体(部分样式不能识别),开源

    缺点:

    纠错能力差,对CSS支持不是很好。当页面内容较长时,处理时间慢

    具体实现:

    public class Html2Pdf {
        /**
         * HTML代码转PDF文档
         *
         * @param content 待转换的HTML代码
         * @param storagePath 保存为PDF文件的路径
         */
        public static void parsePdf(String content, String storagePath) {
            FileOutputStream os = null;
            try {
                File file = new File(storagePath);
                if(!file.exists()) {
                    file.createNewFile();
                }
                os = new FileOutputStream(file);
    
                ITextRenderer renderer = new ITextRenderer();
    //解决中文支持问题
    //            ITextFontResolver resolver = renderer.getFontResolver();
    //            resolver.addFont("simhei.ttf", BaseFont.IDENTITY_H, BaseFont.NOT_EMBEDDED);
    //            resolver.addFont("simhei.ttf", BaseFont.IDENTITY_H, BaseFont.NOT_EMBEDDED);
                renderer.setDocumentFromString(content);
    // 解决图片的相对路径问题,图片路径必须以file开头
    // renderer.getSharedContext().setBaseURL("file:/");
                renderer.layout();
                renderer.createPDF(os);
    
            } catch (DocumentException e) {
                e.printStackTrace();
            } catch (IOException e) {
                e.printStackTrace();
            }finally {
                if(null != os) {
                    try {
                        os.close();
                    } catch (IOException e) {
                        e.printStackTrace();
                    }
                }
            }
        }
    
        /**
         * 对Html要求特别严格
         * @param args
         * @throws IOException
         */
        public static void main(String[] args) throws IOException {
            String htmlFilePath = "";
            htmlFilePath = "F:/pdf/IText实现对PDF文档属性的基本设置 - 半亩池光 - 博客园.html";
            StringBuilder content = new StringBuilder();
            BufferedInputStream in;
            byte[] bys = new byte[1024];
            int len;
            in = new BufferedInputStream(new FileInputStream(htmlFilePath));
            while ((len = in.read(bys)) != -1) {
                content.append(new String(bys, 0, len));
            }
            String html = closeHTML(content.toString());
            html = html.replace("&nbsp;","&#160;");
    
            parsePdf(html,"F:/pdf/wahaha.pdf");
    
        }
    
        public static String closeHTML(String str){
            List arrTags = new ArrayList();
            arrTags.add("br");
            arrTags.add("hr");
            arrTags.add("link");
            arrTags.add("meta");
            arrTags.add("img");
            arrTags.add("input");
            for(int i=0;i<arrTags.size();i++){
                for(int j=0;j<str.length();){
                    int tagStart = str.indexOf("<"+arrTags.get(i),j);
                    if(tagStart>=0){
                        int tagEnd = str.indexOf(">",tagStart);
                        j = tagEnd;
                        String preCloseTag = str.substring(tagEnd-1,tagEnd);
                        if(!"/".equals(preCloseTag)){
                            String preStr = str.substring(0,tagEnd);
                            String afterStr = str.substring(tagEnd);
                            str = preStr + "/" + afterStr;
                        }
                    }else{
                        break;
                    }
                }
            }
            return str;
        }
    
    }

     

    5. PD4ML(样式有问题)

    PD4ML是纯Java的类库,使用HTMLCSS作为页面布局和内容定义格式来生成PDF文档的强大工具,可以简化最终用户生成PDF的工作。参考网站:http://www.pd4ml.com

     

    优点:

    支持中文、对html代码不严格、速度较快

    支持的HTML标签、CSS属性较全,转换失真比较小,可以使用HTML+CSS实现精确的布局控制。

    对网页文件标签、CSS语法错误的容错性比较好。

    对不用额外的控制,就支持图片的转化输出。

     

    缺点:

    存在样式失真问题,CSS支持较不好。

    不开源,最新的demo版本,下载测试以后,发现不支持中文转换。必须购买商业版本才可以。(这里很坑,测试乱码问题通不过,后面发现是本来就不支持)。

    破解后的一些旧版本可以解决乱码问题,但是支持的css样式没有新版本的全。

    具体实现:

    public class HtmlToPDFUtil {
    	public static void main(String[] args) throws Exception {
    		//HtmlToPDFUtil htmlToPDFUtil = new HtmlToPDFUtil();
    		HtmlToPDFUtil.generatePDF_2(new File("F:\\pdf/demo_ch_pd4ml.pdf"),
    				"F:\\pdf/flying saucer 使用中的一些问题 (java导出pdf) - 真的勇士,敢于直面这扯淡的人生 - ITeye博客.htm");
    
    		//File pdfFile = new File("D:/Test/test3.pdf");
    //		String pdfPath = "D:/Test1/mmt";
    //
    //		File file = new File(pdfPath);
    //		if (!file.exists()) {
    //			file.mkdirs();
    //		}
    //		String pdfName = "aa.pdf";
    //		File pdfFile = new File(pdfPath+File.separator+pdfName);
    //		StringBuffer html = new StringBuffer();
    //		html.append("<html>")
    //				.append("<head>")
    //				.append("<meta http-equiv=\"Content-Type\" content=\"text/html; charset=UTF-8\" />")
    //				.append("</head>").append("<body>")
    //				//.append("<font face='KaiTi_GB2312'>")
    //				.append("<font face='KaiTi'>")
    //				.append("<font color='red' size=22>显示中文aaaaaaaaaa</font>")
    //				.append("</font>").append("</body></html>");
    //		StringReader strReader = new StringReader(html.toString());
    //		HtmlToPDFUtil.generatePDF_1(pdfFile, strReader);
    
    	}
    
    	// 手动构造HTML代码
    	public static void generatePDF_1(File outputPDFFile, StringReader strReader)
    			throws Exception {
    		FileOutputStream fos = new FileOutputStream(outputPDFFile);
    		PD4ML pd4ml = new PD4ML();
    		pd4ml.setPageInsets(new Insets(20, 10, 10, 10));
    		pd4ml.setHtmlWidth(950);
    		pd4ml.setPageSize(pd4ml.changePageOrientation(PD4Constants.A4));
    		pd4ml.useTTF("java:fonts", true);		
    		//pd4ml.setDefaultTTFs("KaiTi_GB2312", "KaiTi_GB2312", "KaiTi_GB2312");
    		pd4ml.setDefaultTTFs("KaiTi", "KaiTi", "KaiTi");
    		pd4ml.enableDebugInfo();
    		pd4ml.render(strReader, fos);
    	}
    
    	// HTML代码来自于HTML文件
    	public static void generatePDF_2(File outputPDFFile, String inputHTMLFileName)
    			throws Exception {
    		FileOutputStream fos = new FileOutputStream(outputPDFFile);
    		PD4ML pd4ml = new PD4ML();
    		pd4ml.setPageInsets(new Insets(20, 10, 10, 10));
    		pd4ml.setHtmlWidth(950);
    		pd4ml.setPageSize(pd4ml.changePageOrientation(PD4Constants.A4));
    
    		pd4ml.useTTF("java:fonts", true);
    		pd4ml.setDefaultTTFs("KaiTi", "KaiTi", "KaiTi");
    		pd4ml.enableDebugInfo();
    		pd4ml.render("file:" + inputHTMLFileName, fos);
    	}
    
    }
    

    pd4browser和pd4fonts是生成的

    乱码解决方案:
    https://blog.csdn.net/u014769730/article/details/54375836
    

    测试结果:

    对CSS有一定的要求

    部分Html能支持:

     

     

    6. Sferyx:(样式有问题)

    官网:https://www.sferyx.com/pdfgenerator/html-to-pdf-java.htm

    支持URL、支持文件。支持中文,对html文件几乎无要求。样式不佳,中文字体支持不佳。

    具体实现

    引入Java包:PDFGenerator.jar

    代码:

            PDFGenerator pdfGenerator=new PDFGenerator();
            pdfGenerator.setMarginsForStandardPageFormat (10,10,10,10);
    //        pdfGenerator.setCharset ("utf-8");
            pdfGenerator.setCharset("ISO-10646-UCS-2");
    //        pdfGenerator.generatePDFFromURL ("https://blog.csdn.net/gisboygogogo/article/details/77601308",
            pdfGenerator.generatePDFFromURL ("F:\\pdf\\1.html",
                    "F:\\pdf/pdfgenerator-test1.pdf",
                    "A4", "Portrait");
    

    样式问题:

     

     

    7. jPDFWriter(样式有问题、对html文件支持不好)

    具体实现:

    //        URL url = new URL("https://www.baidu.com/");
    //        PageFormat pf = new PageFormat();
    //        PDFDocument pdfDoc = PDFDocument.loadHTML (url, pf, true);
    //        pdfDoc.saveDocument ("F:\\pdf\\output.pdf");
            File f1 = new File ("F:\\pdf\\1.html");
            PDFDocument pdfDoc = PDFDocument.loadHTML(f1.toURI().toURL(), new PageFormat (), false);
            pdfDoc.saveDocument ("F:\\pdf\\output.pdf");
    

    效果:

    并不是很好,虽然支持中文

     

    其他未知方案。。。。。。。。。。

     

     

    在线转换方案:

    仅支持URL,但能很好地转换,效果较好,速度较快。但收费,且为第三方服务,或有信息安全性问题。

    如果不考虑html文件安全性的话,可以考虑。

     

    以转CSDN及百度搜索网页为测试例。

    1. restpack

    官网:https://restpack.io/                    

    能很好保持样式,且支持中文,速度快。价格相比较优惠。

    测试效果:

    实现方法:

    HttpResponse<String> response = Unirest.post("https://restpack.io/api/html2pdf/v5/convert")
      .header("x-access-token", "TOKEN")
      .body("url=http%3A%2F%2Fgoogle.com&json=true")
      .asString();

     

    2. pdfshift

    官网:https://pdfshift.io

    能很好保持样式,且支持中文,速度快。价格相比较优惠。

    测试效果:

     

    实现方法:

    String encoding = Base64.getEncoder().encodeToString("YOUR_API_KEY:".getBytes());
    HttpPost httppost = new HttpPost("https://api.pdfshift.io/v2/convert/");
    httppost.setHeader("Authorization", "Basic " + encoding);
    httppost.setHeader("Content-type", "application/json");
    
    HttpEntity postingString = new StringEntity("{\"source\":\"https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&tn=baidu&wd=PhantomJS%20html%E8%BD%ACpdf&oq=PhantomJS&rsv_pq=c942451400041f65&rsv_t=3566cYExdLkZv6pJRhDXeda3WgHs37R3GASuPvnEGrOmBl9Lur2EMGyfdF8&rqlang=cn&rsv_enter=1&rsv_sug3=15&rsv_sug1=4&rsv_sug7=100&rsv_sug2=0&inputT=6104&rsv_sug4=6105\",\"landscape\":false,\"use_print\":false}");
    httppost.setEntity(postingString);
    
    CloseableHttpClient client = HttpClients.createDefault();
    try (CloseableHttpResponse response = client.execute(httppost)) {
        HttpEntity entity = response.getEntity();
        // Use the entity
    }

     

    3.其他(不考虑的方案)

    1. pdfmyurl(网站反应慢)

    官网:http://pdfmyurl.com/  

    转化效率极低,速度极其慢

     

    2. pdflayer(不支持中文)

    官网:https://pdflayer.com/

    不支持中文。虽然能很好保持样式。

     

    个人总结:

    到现在未知并为找到完美的方案。各种方案都有缺点,但是在线转换的方案转化效率以及对CSS等支持程度比较好。也不知道他们这些内部是如何实现的。
     

    参考链接:

    http://blog.csdn.net/ouyhong123/article/details/26401967

    http://blog.csdn.net/tengdazhang770960436/article/details/41320079

    http://www.cnblogs.com/jasondan/p/4108263.html

    http://blog.csdn.net/accountwcx/article/details/46785437

    http://blog.csdn.net/zdtwyjp/article/details/5769353

    展开全文
  • PDF技术(二)-Java实现Txt转PDF文件

    千次阅读 2018-10-10 16:47:23
    TxT转PDF可以直接使用IText就可以了,IText在pdf领域可以说暂时是最好的方案了。通过直接读取txt文件,然后生成pdf,再添加文本就可以了。 1)使用IText实现转换 原理: 使用IText创建pdf,添加文本。 优点: ...

    TxT转PDF可以直接使用IText就可以了,IText在pdf领域可以说暂时是最好的方案了。通过直接读取txt文件,然后生成pdf,再添加文本就可以了。

    1)使用IText实现转换

    原理:

    使用IText创建pdf,添加文本。

    优点:

    速度快。

    缺点:

    具体实现:

    public class Txt2PDF {
        private static final String FONT = "C:\\Windows\\Fonts\\simhei.ttf";
        public static void text2pdf(String text, String pdf) throws DocumentException, IOException {
            Document document = new Document();
            OutputStream os = new FileOutputStream(new File(pdf));
            PdfWriter.getInstance(document, os);
            document.open();
            //方法一:使用Windows系统字体(TrueType)
            BaseFont baseFont = BaseFont.createFont(FONT, BaseFont.IDENTITY_H, BaseFont.NOT_EMBEDDED);
            Font font = new Font(baseFont);
            InputStreamReader isr = new InputStreamReader(new FileInputStream(new File(text)), "GBK");
            BufferedReader bufferedReader = new BufferedReader(isr);
    String str = "";
            while ((str = bufferedReader.readLine()) != null) {
                document.add(new Paragraph(str, font));
            }
            document.close();
        }
        public static void main(String[] args) throws Exception {
            String PDFTIMEDIR = "F:/pdf/";
            String text = PDFTIMEDIR + "1.txt";
            String pdf = PDFTIMEDIR + "1.txt.pdf";
            text2pdf(text, pdf);
        }
    }
    

    效率分析

    耗时:2264ms

    耗时:2079ms

    耗时:2137ms

    耗时:2224ms

     

     

    展开全文
  • PDF技术(三)-Java实现图片转PDF文件

    千次阅读 2018-10-10 16:49:21
    图片转pdf文件同样采用itext,将图片加入即可 1)使用IText转换 原理: 使用IText创建pdf,添加图片。 优点: 速度快。 具体实现 public class Image2PDF { /*** @param picturePath 图片地址*/ private ...
  • MS Word文件转换为PDF技术方案比较多,比较常见的方案是使用开源的OpenOffice,但是此方案存在兼容的问题,有些文件转换不了或出现问题。而采用现成的产品,成本又比较高。通过对各种Word转PDF解决方案的综合考察,...
  • PDF技术(一)-Java实现Office系列文件转PDF文件

    万次阅读 多人点赞 2018-10-10 16:36:31
    最近,公司要求做个文件转pdf的调研报告,于是在网上找了一些实现方法,现在将这些方法做个对比,并记录下来,以后或许有用呢,哈哈。 首先说一下需求,产品要求不能使用第三方软件实现,因为这种实现方式效率不高...
  • 为什么要选择PDF技术

    千次阅读 2007-01-13 01:54:00
    为什么要选择PDF技术一、电子文档在实际应用中经常遇到的问题1. 不够安全:目前大多数文件没有对文件内容进行更高级别的安全控制,一般人员可以很容易地打开、打印、复制文件,造成文件内容的泄密。2. 不能信任:...
  • 技术研究  做这样研究了网上许多技术,大都存在各种各样的缺陷。html2canvas&jsPDF  感兴趣的读者,可以参考: https://github.com/linwalker/render-html-to-pdf   该种方法,主要是通过JS调用实现,无法...
  • 来自:...How to Display PDF documents with ASP.NET(很不错的) 来自:http://www.beansoftware.com/ASP.NET-Tutorials/PDF
  • 技术架构摘要梳理20200831.pdf 技术架构摘要梳理20200831.pdf 技术架构摘要梳理20200831.pdf 技术架构摘要梳理20200831.pdf 技术架构摘要梳理20200831.pdf 技术架构摘要梳理20200831.pdf
  • 技术LIDAR技术造就智能叶片.pdfpdf,新技术LIDAR技术造就智能叶片.pdf
  • C语言核心技术.pdfC语言核心技术.pdfC语言核心技术.pdfC语言核心技术.pdfC语言核心技术.pdfC语言核心技术.pdfC语言核心技术.pdf
  • 数控技术.pdf

    2019-10-24 11:23:41
    数控技术pdf,数控技术
  • kafka技术内幕pdf

    2019-05-07 09:45:12
    kafka技术内幕pdf
  • 液晶显示器件应用技术.pdf液晶显示器件应用技术.pdf液晶显示器件应用技术.pdf液晶显示器件应用技术.pdf液晶显示器件应用技术.pdf液晶显示器件应用技术.pdf
  • 3G技术基本原理.pdf.pdf

    2019-09-13 06:38:23
    3G技术基本原理.pdfpdf,3G技术基本原理.pdf
  • 白盒测试技术.pdf

    2018-04-26 08:51:28
    白盒测试技术.pdf 白盒测试技术.pdf 白盒测试技术.pdf 白盒测试技术.pdf 白盒测试技术.pdf 白盒测试技术.pdf 白盒测试技术.pdf 白盒测试技术.pdf
  • 埃森哲技术展望2020中文全本.pdf埃森哲技术展望2020中文全本.pdf
  • 虚拟样机技术.pdf 虚拟样机技术.pdf 虚拟样机技术.pdf
  • SENTRON WL 断路器技术手册.pdfpdf,SENTRON WL 断路器技术手册.pdf
  • 西门子电气安装技术-旧.pdfpdf,西门子电气安装技术-旧.pdf
  • 日本蜡烛图技术PDF

    2020-06-16 11:11:03
    日本蜡烛图技术PDF
  • Symbian资料技术PDF

    2010-01-08 11:26:58
    Symbian资料技术PDF.rarSymbian资料技术PDF.rarSymbian资料技术PDF.rarSymbian资料技术PDF.rar
  • PLC编程技术.pdf

    2019-10-20 13:22:39
    PLC编程技术pdf,PLC编程技术
  • 风力发电技术.pdf

    2019-09-24 17:13:26
    风力发电技术pdf,风力发电技术
  • 三星嵌入式开发技术.pdf三星嵌入式开发技术.pdf三星嵌入式开发技术.pdf

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 68,724
精华内容 27,489
关键字:

pdf技术