精华内容
下载资源
问答
  • pdfbox 是apache下一个开源的小项目,用来做与PDF相关的操作, 测试了一下简单的读取PDF文档,也有点意思,但对于生成PDF来说,没有itext强大。maven的依赖org.apache.pdfboxpdfbox2.0.6简单读取未加密的PDF文档代码...

    pdfbox 是apache下一个开源的小项目,用来做与PDF相关的操作, 测试了一下简单的读取PDF文档,也有点意思,但对于生成PDF来说,没有itext强大。

    maven的依赖org.apache.pdfbox

    pdfbox

    2.0.6

    简单读取未加密的PDF文档代码

    import org.apache.pdfbox.pdmodel.PDDocument;

    import org.apache.pdfbox.text.PDFTextStripper;

    import org.apache.pdfbox.text.PDFTextStripperByArea;

    import java.io.File;

    import java.io.IOException;

    public class ReadPdf {

    public static void main(String[] args) throws IOException {

    try (PDDocument document = PDDocument.load(new File("/path-to/abc.pdf"))) {

    document.getClass();

    if (!document.isEncrypted()) {

    PDFTextStripperByArea stripper = new PDFTextStripperByArea();

    stripper.setSortByPosition(true);

    PDFTextStripper tStripper = new PDFTextStripper();

    String pdfFileInText = tStripper.getText(document);

    //System.out.println("Text:" + st);

    // split by whitespace

    String lines[] = pdfFileInText.split("\\r?\\n");

    for (String line : lines) {

    System.out.println(line);

    }

    }

    }

    }

    }

    如果需要查看更多pdfbox的例子,可以参考这里:

    https://svn.apache.org/viewvc/pdfbox/trunk/examples/src/main/java/org/apache/pdfbox/examples/

    展开全文
  • 读取pdf文件java代码

    2012-10-19 09:22:16
    import java.io.File; import java.io.FileInputStream; import java.io.IOException; import org.pdfbox.pdfparser.PDFParser; import org.pdfbox.pdmodel.PDDocument; import org.pdfbox.util.PDFTextStrip
    import java.io.File;
    import java.io.FileInputStream;
    import java.io.IOException;

    import org.pdfbox.pdfparser.PDFParser;
    import org.pdfbox.pdmodel.PDDocument;
    import org.pdfbox.util.PDFTextStripper;

    public class StreamDemo_18 {

        /**
         * @param 读取PDF文件
         */
        public static void main(String[] args) {
            StreamDemo_18 pdf = new StreamDemo_18();
            String pdfName = "D:\\temp\\myPDF.pdf";
            pdf.readFileOfPDF(pdfName);

        }

        // 读取指定的PDF文件的内容,其中:pdfName表示要读取的PDF文件的路径
        public void readFileOfPDF(String pdfName) {
            File file = new File(pdfName);// 创建一个文件对象
            FileInputStream infile = null;
            try {
                infile = new FileInputStream(pdfName);// 创建一个文件输入流
                // 新建一个PDF解析器对象
                PDFParser parser = new PDFParser(infile);
                // 对PDF文件进行解析
                parser.parse();
                // 获取解析后得到的PDF文档对象
                PDDocument pdfdocument = parser.getPDDocument();
                // 新建一个PDF文本剥离器
                PDFTextStripper stripper = new PDFTextStripper();
                // 从PDF文档对象中剥离文本
                String context = stripper.getText(pdfdocument);
                System.out.println("PDF文件" + file.getAbsolutePath() + "的文本内容如下:");
                System.out.println(context);

            } catch (Exception e) {
                System.out.println("读取PDF文件" + file.getAbsolutePath() + "失败!"
                        + e.getMessage());
            } finally {
                if (infile != null) {
                    try {
                        infile.close();
                    } catch (IOException e1) {
                    }
                }
            }
        }
    }


    展开全文
  • java读取ShapeFile文件的源代码时间:2010-04-20 22:20来源: 作者:giser 点击: 70次java读取ShapeFile文件的源代码java读取ShapeFile文件的源代码1. import java.awt.Color;2. import java.io.;3. import java.net....

    java读取ShapeFile文件的源代码

    时间:2010-04-20 22:20来源: 作者:giser 点击: 70次

    java读取ShapeFile文件的源代码

    java读取ShapeFile文件的源代码

    1. import java.awt.Color;

    2. import java.io.;

    3. import java.net.URL;

    4. import java.net.URLConnection;

    5. import java.util.zip.;

    6. import uk.ac.leeds.ccg.dbffile.DbfFileException;

    7. import uk.ac.leeds.ccg.dbffile.DbfNet;

    8. import uk.ac.leeds.ccg.shapefile.;

    9.

    10. public class ShapefileReader

    11. {

    12. public Shapefile sf;

    13. public DbfNet dbf;

    14. private int idCol;

    15. private String name;

    16.

    17. public ShapefileReader(String baseFilename)

    18. {

    19. super();

    20. sf null;

    21. dbf null;

    22. idCol 3;

    23. name none;

    24. name baseFilename;

    25. try

    26. {

    27. sf new Shapefile(baseFilename + .shp);

    28. }

    29. catch(Exception e)

    30. {

    31. System.out.println(e);

    32. }

    33. }

    34.

    35. public ShapefileReader(URL base, int idCol)

    36. {

    37. super();

    38. sf null;

    39. dbf null;

    40. this.idCol 3;

    41. name none;

    42. this.idCol idCol;

    43. name base.getFile();

    44. String sub ;

    45. if(name.indexOf(63) 0)

    46. sub name.substring(name.indexOf(63), name.lastIndexOf(47)

    );

    47. System.out.println(Sub + sub);

    48. boolean shpZip false;

    49. boolean dbfZip false;

    50. try

    51. {

    52. System.out.println(SFR Looking for .zip version of +

    name);

    53. String ext .zip;

    54. String noExt base.getFile();

    55. System.out.println(No Ext + noExt);

    56. if(noExt.toLowerCase().endsWith(.shp) noExt.toLowerCase().en

    dsWith(.zip))

    57. noExt name.substring(0, name.length() - 4);

    58. System.out.println(No Ext + noExt);

    59. URL zipURL new URL(base.getProtocol(), base.get

    展开全文
  • 引入所需maven依赖org.icepdf.osicepdf-core6.2.2javax.mediajai_coreJAVA代码工具类packagecom.util;importcom.lowagie.text.pdf.PdfReader;importlombok.extern.slf4j.Slf4j;importorg.icepdf.core.pobjects....

    引入所需maven依赖

    org.icepdf.os

    icepdf-core

    6.2.2

    javax.media

    jai_core

    JAVA代码工具类package com.util;

    import com.lowagie.text.pdf.PdfReader;

    import lombok.extern.slf4j.Slf4j;

    import org.icepdf.core.pobjects.Document;

    import org.icepdf.core.pobjects.Page;

    import org.icepdf.core.util.GraphicsRenderingHints;

    import org.springframework.web.multipart.MultipartFile;

    import javax.imageio.ImageIO;

    import javax.servlet.http.HttpServletResponse;

    import java.awt.image.BufferedImage;

    import java.io.BufferedInputStream;

    import java.io.File;

    import java.io.FileInputStream;

    import java.io.FileOutputStream;

    import java.io.IOException;

    import java.io.OutputStream;

    import java.net.URLEncoder;

    import java.util.ArrayList;

    import java.util.Arrays;

    import java.util.List;

    import java.util.zip.ZipEntry;

    import java.util.zip.ZipOutputStream;

    //java 项目 www.fhadmin.org

    @Slf4j

    public class PdfToImageUtil {

    //支持文件格式

    public static final String SUPPORT_FILE = "pdf";

    //图片文件格式

    public static final String IMAGE_SUFFIX = "jpg"; //png

    //压缩文件格式

    public static final String ZIP_SUFFIX = "zip";

    //PDF是否为一页

    private static boolean isImage;

    /**

    * 对外的开放接口,用于将PDF文件转换为图片文件压缩包进行下载

    * @param file SpringMVC获取的图片文件

    */

    public static synchronized void pdfToTransformation(MultipartFile file, HttpServletResponse response) throws Exception {

    String fileName = file.getOriginalFilename();

    if(null == fileName) return;

    String suffix = fileName.substring(fileName.lastIndexOf(".") + 1);

    log.info("文件名称:" + fileName + ",文件后缀:" + suffix);

    if(!SUPPORT_FILE.equals(suffix)) return;

    isImage = false;

    File imageFile = generateFile(file);

    log.info("文件生成成功!");

    downloadFile(imageFile, response);

    }

    /**

    * 将PDF文件转换为多张图片并放入一个压缩包中

    * @param file SpringMVC获取的图片文件

    * @return 图片文件压缩包

    * @throws Exception 抛出异常

    */

    private static File generateFile(MultipartFile file) throws Exception {

    String fileName = file.getOriginalFilename();

    if(null == fileName) return null;

    Document document = new Document();

    document.setByteArray(file.getBytes(), 0, file.getBytes().length, fileName);

    log.info("PDF页数:" + document.getNumberOfPages());

    isImage = 1 == document.getNumberOfPages();

    File imageReturnFile = null;

    List fileList = new ArrayList<>();

    for (int i = 0; i 

    BufferedImage image = (BufferedImage) document.getPageImage(i, GraphicsRenderingHints.SCREEN,

    Page.BOUNDARY_CROPBOX, 0F, 2.5F);

    File imageFile = new File((i + 1) + "." + IMAGE_SUFFIX);

    ImageIO.write(image, IMAGE_SUFFIX, imageFile);

    image.flush();

    if(isImage){

    imageReturnFile = imageFile;

    break;

    }

    fileList.add(imageFile);

    }

    document.dispose();

    if(isImage) return imageReturnFile;

    //压缩图片文件

    String directoryName = fileName.substring(0, fileName.lastIndexOf("."));

    File zipFile = new File(directoryName + "." + ZIP_SUFFIX);

    ZipOutputStream zipOutputStream = new ZipOutputStream(new FileOutputStream(zipFile));

    zipFile(fileList, zipOutputStream);

    zipOutputStream.close();

    return zipFile;

    }

    /**

    * 下载image/zip文件

    * @param downloadFile 文件

    * @param response HttpServletResponse

    * @throws IOException IO异常

    */

    private static void downloadFile(File downloadFile, HttpServletResponse response) throws IOException {

    FileInputStream fileInputStream = new FileInputStream(downloadFile);

    byte[] bytes = new byte[fileInputStream.available()];

    fileInputStream.read(bytes);

    fileInputStream.close();

    //设置response参数

    response.reset();

    if(isImage){

    response.setContentType("image/jpeg");

    } else {

    response.setContentType("application/zip");

    }

    response.setCharacterEncoding("UTF-8");

    response.setHeader("Content-Disposition", "attachment; filename=" + URLEncoder.encode(downloadFile.getName(), "UTF-8"));

    OutputStream outputStream = response.getOutputStream();

    outputStream.write(bytes);

    outputStream.flush();

    outputStream.close();

    if(!isImage) downloadFile.delete();

    }

    /**

    * 压缩文件

    * @param inputFiles 具体需要压缩的文件集合

    * @param zipOutputStream ZipOutputStream对象

    * @throws IOException IO异常

    */

    private static void zipFile(List inputFiles, ZipOutputStream zipOutputStream) throws IOException {

    byte[] buffer = new byte[1024];

    for (File file : inputFiles) {

    if (file.exists()) {

    if (file.isFile()) {

    BufferedInputStream bis = new BufferedInputStream(new FileInputStream(file));

    zipOutputStream.putNextEntry(new ZipEntry(file.getName()));

    int size = 0;

    while ((size = bis.read(buffer)) > 0) {

    zipOutputStream.write(buffer, 0, size);

    }

    zipOutputStream.closeEntry();

    bis.close();

    file.delete();

    } else {

    File[] files = file.listFiles();

    if(null == files) continue;

    List childrenFileList = Arrays.asList(files);

    zipFile(childrenFileList, zipOutputStream);

    }

    }

    }

    }

    /**

    * 获取PDF页数

    * @throws IOException

    */

    public static String getPdfPageSize(MultipartFile file) throws IOException {

    PdfReader pdfReader = new PdfReader(file.getBytes());

    int pages = pdfReader.getNumberOfPages();

    return String.valueOf(pages);

    }

    }

    生成图片PdfController.javapackage com.web.transformation.controller;

    import com.util.PdfToImageUtil;

    import org.springframework.stereotype.Controller;

    import org.springframework.web.bind.annotation.RequestMapping;

    import org.springframework.web.bind.annotation.ResponseBody;

    import org.springframework.web.multipart.MultipartFile;

    import javax.servlet.http.HttpServletResponse;

    import java.io.IOException;

    //java项目 www.fhadmin.org

    @Controller

    public class PdfController {

    //PDF转图片或者ZIP

    @RequestMapping("/pdfToImage")

    @ResponseBody

    public void pdfToImage(MultipartFile file, HttpServletResponse response) throws Exception{

    PdfToImageUtil.pdfToTransformation(file,response);

    }

    //获取PDF页数

    @RequestMapping("/getPdfPageSize")

    @ResponseBody

    public String pdfToImage(MultipartFile file) throws IOException {

    return PdfToImageUtil.getPdfPageSize(file);

    }

    }

    展开全文
  • java 处理pdf文档,比如:在特定位置插入图片,签名,需要计算pdf的宽度,高度1....具体实现代码:import java.io.FileInputStream;import java.io.IOException;import com.itextpdf.text.Document;import com.itex...
  • 实现代码如下:import java.io.*;import org.apache.pdfbox.pdfparser.PDFParser;import org.apache.pdfbox.pdmodel.PDDocument;import org.apache.pdfbox.util.PDFTextStripper;public class PDFReader {public ...
  • 读取pdf文件jar引用org.apache.pdfboxpdfbox1.8.13读取word文件jar引用org.apache.poipoi-scratchpad3.16-beta1org.apache.poipoi3.16-beta1读取word文件方法/**** @title: gettextfromword* @description: 读取word...
  • 我正在编写一个java代码,利用Apache-poi读取ms-office .doc文件和itext jar API来创建和写入pdf文件 . 我已经读完了.doc文件中打印的文本和表格 . 现在我正在寻找一种能够读取文档中所写图像的解决方案 . 我编写...
  • 代码如下,读取pdf文件时,出现中文字符乱码的情况,求大神解决。。 ![图片说明](https://img-ask.csdn.net/upload/201512/01/1448957510_127034.png) package read; import java.io.FileInputStream; import ...
  • 读取PDF文件jar引用org.apache.pdfboxpdfbox1.8.13读取WORD文件jar引用org.apache.poipoi-scratchpad3.16-beta1org.apache.poipoi3.16-beta1读取WORD文件方法/**** @Title: getTextFromWord* @Description: 读取word...
  • java 读取pdf文件的宽,高

    万次阅读 2018-01-10 10:45:54
    java 处理pdf文档,比如:在特定位置插入图片,签名,需要计算pdf的宽度,高度1....具体实现代码:import java.io.FileInputStream; import java.io.IOException; import com.itextpdf.text.Document; import com.i...
  • 引入所需maven依赖org.icepdf.osicepdf-core6.2.2javax.mediajai_coreJAVA代码工具类package com.util;import com.lowagie.text.pdf.PdfReader;import lombok.extern.slf4j.Slf4j;import org.icepdf.core.pobjects....
  • 下载地址:http://pdfbox.apache.org/downloads.html下载所需jar包如下:bcprov-jdk16-140.jarcommons-logging-1.1.3.jarfontbox-1.8.7.jarpdfbox-1.8.7.jar代码实现如下:packagecom.util;importjava.io....
  • Java 使用 pdfbox 读取 PDF文件中的文本

    千次阅读 2016-06-21 16:11:59
    下面我们直接使用pdf取得PDF文件中的文本,代码如下 import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.io.InputStream; import org.apache....
  • 本文将介绍通过Java程序来...使用工具:Free Spire.PDF for Java(免费版)Jar文件获取导入:方法1:通过官网方法2: 可通过 Java代码示例【示例1】读取PDF中的文本import com.spire.pdf.*;import java.io.FileWrite...
  • Java读取pdf文件方法:pdfbox

    千次阅读 2010-04-30 10:14:00
    首先从http://pdfbox.apache.org/网站上下载最新的pdfbox.jar包和fontbox.jar 两个jar包,将两个jar包放到你的classpath下面,读取代码如下:String filePath = "E://tes.pdf",nr="";PDDocument doc=PDDocument.load...
  • 一多种方式读文件内容 1按字节读取文件内容 2按字符读取文件内容 3按行读取文件内容 4随机读取文件内容 Java 代码 1.importjava.io.BufferedReader; 2.importjava.io.File; 3.importjava.io.FileInputStream; 4....
  • Java 读取PDF文本内容

    万次阅读 热门讨论 2018-09-10 17:19:11
    本文将介绍如何在Java应用程序中读取PDF文件的文本内容。(读取图片也支持,参考这篇文章Java 提取PDF文档中的图片) 在Java应用程序中读取PDF,我们可以借助第三方PDF控件,本文所使用的控件是免费Java PDF组件Free ...
  • 依赖包 bcpg-jdk15on-1.60.jar itextpdf-5.5.13.jar ...测试代码 package com.nantian.pdf; import java.io.FileOutputStream; import java.io.IOException; import java.io.PrintWriter; import com.itextpdf....
  • 本篇文章主要通过实例代码介绍了JAVA读取PDF、WORD文档,需要的朋友可以参考下读取PDF文件jar引用org.apache.pdfboxpdfbox1.8.13读取WORD文件jar引用org.apache.poipoi-scratchpad3.16-beta1org.apache.poipoi3.16-...
  • 读取PDF文件jar引用 1 2 3 4 5 &lt;dependency&gt;  &lt;groupid&gt;org.apache.pdfbox&lt;/groupid&gt;  pdfbox&lt;/artifactid&gt; ...
  • 1、公司要求生成pdf文件,内容中间需要一个表格,表格要根据数据列表的长度动态变长 直接上代码,需要的复制+百度 引入包 <dependency> <groupId>com.itextpdf</groupId> <artifactId>...
  • Java 识别读取pdf中的二维码信息

    千次阅读 2019-10-25 14:45:32
    通过Java程序识别、读取二维码存储的信息。 前言 在实际开发过程中,会因为各种业务需求,导致需通过程序识别二维码信息内容。并根据读取到的内容结合相应业务来做不一样的操作。 步骤 **1、把pdf转成图片格式,...
  • 本文将介绍通过Java程序来...使用工具:Free Spire.PDF for Java(免费版)Jar文件获取导入:方法1:通过官网方法2: 可通过Java代码示例【示例1】读取PDF中的文本import com.spire.pdf.*;import java.io.FileWriter...
  • 就用到了读取pdf内容,合并pdf文件,以及拆分pdf的处理。废话不多说,直接上代码。import java.io.File;import java.io.IOException;import java.util.List;import org.apache.pdfbox.multipdf.Splitter;import org....
  • java读取pdf文本转换html

    千次阅读 2019-05-12 17:54:00
    java读取pdf文本转换html ...java读取pdf中的纯文字,这里使用的是pdfbox工具包 maven引入如下配置  <dependency> <groupId>net.sf.cssbox</groupId> ...
  • JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例2012-06-29 17:13:08| 分类:JAVA | 标签:|字号大中小订阅以下是Java对几种文本文件内容读取代码。其中,OFFICE文档(WORD,EXCEL)使用了POI控件,PDF使用...
  • 本人通过POI读取的office文件和pdfbox读取pdf文件内容,具体代码如下: (1)首先在工程中引入需要的jar包文件。如果项目用的是maven工程则需要在pom.xml文件中添加如下代码:  org.apache.pdfbox  ...
  • 一、需求在线把 word 文件转换成 pdf 文件。二、方案用 pageoffice 组件实现在线打开 word 文件,并转换 pdf 文件。 三、核心代码document.getElementById("PageOfficeCtrl1").WebSaveAsPDF();四:具体的实现代码...

空空如也

空空如也

1 2 3 4 5 ... 14
收藏数 272
精华内容 108
关键字:

java代码读取pdf文件

java 订阅