精华内容
下载资源
问答
  • /*** PdfboxUtil.java* Create on 2015-1-5*/package charlie.utils.pdf;import java.io.BufferedWriter;import java.io.File;import java.io.FileInputStream;import java.io.FileWriter;import java.io.InputStrea...

    /**

    * PdfboxUtil.java

    * Create on 2015-1-5

    */

    package charlie.utils.pdf;

    import java.io.BufferedWriter;

    import java.io.File;

    import java.io.FileInputStream;

    import java.io.FileWriter;

    import java.io.InputStream;

    import org.apache.pdfbox.pdfparser.PDFParser;

    import org.apache.pdfbox.pdmodel.PDDocument;

    import org.apache.pdfbox.util.PDFTextStripper;

    /**

    *@authorCharlieChen

    *@DateTime2015-1-5上午9:55:38

    *@version1.0

    */

    public class PdfboxUtil {

    /**

    *@paramargs

    */

    public static void main(String[] args) {

    String pdfPath = "D:/temp/成交单-PDF格式.pdf";

    String txtfilePath = "D:/temp/成交单-PDF格式-pdfbox.txt";

    PdfboxUtil pdfutil = new PdfboxUtil();

    try {

    String content = pdfutil.getTextFromPdf(pdfPath);

    pdfutil.toTextFile(content, txtfilePath);

    System.out.println("Finished !");

    } catch (Exception e) {

    e.printStackTrace();

    }

    }

    /**

    *读取PDF文件的文字内容

    *@parampdfPath

    *@throwsException

    */

    public String getTextFromPdf(String pdfPath)

    throws Exception {

    //是否排序

    boolean sort =

    false;

    //开始提取页数

    int startPage = 1;

    //结束提取页数

    int endPage = Integer.MAX_VALUE;

    String content = null;

    InputStream input = null;

    File pdfFile = new File(pdfPath);

    PDDocument document = null;

    try {

    input = new FileInputStream(pdfFile);

    //加载pdf 文档

    PDFParser parser = new PDFParser(input);

    parser.parse();

    document = parser.getPDDocument();

    //获取内容信息

    PDFTextStripper pts = new PDFTextStripper();

    pts.setSortByPosition(sort);

    endPage = document.getNumberOfPages();

    System.out.println("Total Page: " + endPage);

    pts.setStartPage(startPage);

    pts.setEndPage(endPage);

    try {

    content = pts.getText(document);

    } catch (Exception e) {

    throw e;

    }

    System.out.println("Get PDF Content ...");

    } catch (Exception e) {

    throw e;

    } finally {

    if (null != input)

    input.close();

    if (null != document)

    document.close();

    }

    return content;

    }

    /**

    *把PDF文件内容写入到txt文件中

    *@parampdfContent

    *@paramfilePath

    */

    public void toTextFile(String pdfContent,String filePath) {

    try {

    File f = new File(filePath);

    if (!f.exists()) {

    f.createNewFile();

    }

    System.out.println("Write PDF Content to txt file ...");

    BufferedWriter output = new BufferedWriter(new FileWriter(f));

    output.write(pdfContent);

    output.close();

    } catch (Exception e) {

    e.printStackTrace();

    }

    }

    }

    展开全文
  • Java 读取PDF文本内容

    2021-02-12 09:32:37
    //创建PdfDocument实例...//加载PDF文件doc.loadFromFile("sample.pdf");//创建StringBuilder实例StringBuilder sb = new StringBuilder();PdfPageBase page;//遍历PDF页面,获取每个页面的文本并添加到StringBui...

    //创建PdfDocument实例

    PdfDocument doc = new PdfDocument();

    //加载PDF文件

    doc.loadFromFile("sample.pdf");

    //创建StringBuilder实例

    StringBuilder sb = new StringBuilder();

    PdfPageBase page;

    //遍历PDF页面,获取每个页面的文本并添加到StringBuilder对象

    for(int i= 0;i

    page = doc.getPages().get(i);

    sb.append(page.extractText(true));

    }

    FileWriter writer;

    try {

    //将StringBuilder对象中的文本写入到文本文件

    writer = new FileWriter("ExtractText.txt");

    writer.write(sb.toString());

    writer.flush();

    } catch (IOException e) {

    e.printStackTrace();

    }

    doc.close();

    展开全文
  • java读取pdf内容

    2020-12-23 06:05:58
    展开全部Java读取PDF文件:读取PDF文件中的文本内容:importcom.spire.pdf.PdfDocument;importcom.spire.pdf.PdfPageBase;importjava.io.*;publicclassExtract_Text{publicstaticvoidmain(String[]args){//创建...

    展开全部

    Java读取PDF文件:读取PDF文件中的文本内容:import com.spire.pdf.PdfDocument;

    import com.spire.pdf.PdfPageBase;

    import java.io.*;

    public class Extract_Text {

    public static void main(String[] args) {

    //创建PdfDocument实例

    PdfDocument doc= new PdfDocument();

    //加载PDF文件

    doc.loadFromFile("test.pdf");

    StringBuilder sb= new StringBuilder();

    PdfPageBase page;

    //遍历PDF页面,获取文e68a84e8a2ad3231313335323631343130323136353331333431356130本

    for(int i=0;i

    page=doc.getPages().get(i);

    sb.append(page.extractText(true));

    }

    FileWriter writer;

    try {

    //将文本写入文本文件

    writer = new FileWriter("ExtractText.txt");

    writer.write(sb.toString());

    writer.flush();

    } catch (IOException e) {

    e.printStackTrace();

    }

    doc.close();

    }

    读取图片也是支持的,你可以自己试一下,但是PDF中是没有表格的概念的,表格是画到页面上的,和office文件中的表格不一样,只能通过从PDF页面指定矩形范围内提取数据来实现提取表格内容

    展开全文
  • Java code// 搜索pdfpublic List searchPdfFile(String keyword,List items) throws IOException {File f = new File("/sdcard/LPR/lpr_pdf/");// 这是对应文件名File[] fileList = f.listFiles();PDDocument ...

    Java code// 搜索pdf

    public List searchPdfFile(String keyword,List items) throws IOException {

    File f = new File("/sdcard/LPR/lpr_pdf/");// 这是对应文件名

    File[] fileList = f.listFiles();

    PDDocument document = null;

    for(File filePdf : fileList)

    {

    Toast.makeText(EntAppSea.this, filePdf.getName(),

    Toast.LENGTH_LONG).show();

    PDFTextStripper stripper = new PDFTextStripper();

    document = PDDocument.load(filePdf);

    int pageNum = document.getNumberOfPages();

    Toast.makeText(EntAppSea.this, String.valueOf(pageNum),

    Toast.LENGTH_LONG).show();

    for(int i=1;i<=pageNum;i++)

    {

    stripper.setStartPage(i);

    stripper.setEndPage(i+1);

    String pdfStr = stripper.getText(document);

    if(pdfStr.indexOf(keyword)>-1)

    {

    items.add(filePdf.getName()+"第"+i+"页");

    }

    }

    }

    return items;

    }

    展开全文
  • 展开全部你需32313133353236313431303231363533e78988e69d8331333363363464要用到PDFbox api例子如下importjava.io.File;importjava.io.IOException;importorg.apache.pdfbox.pdmodel.PDDocument;importorg.apache....
  • JAVA 读取pdf文件

    2021-03-22 15:23:54
    ActionForm form, HttpServletRequest request, HttpServletResponse response) throws Exception { PdfExport pdf = new PdfExport(); String id=request.getParameter("id"); pdf.make(request,response,id); ...
  • java读取pdf总结

    2021-02-12 09:32:37
    PDFBox是一个开源的对pdf文件进行操作的库。 PDFBox-0.7.3.jar加入classpath。同时FontBox1.0.jar加入classpath,否则报错:Exception in thread "main" java.lang.NoClassDefFoundError: org/fontbox/afm/...
  • java读取pdf内容(图片和文本) 使用pdfbox,maven如下 <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox</artifactId> <version>2.0.12</...
  • Java简单的读取pdf文件中的数据:第二步:写个简单的读取pdf文件的程序。(PdfReader.java)import java.io.File;import java.io.FileOutputStream;import java.io.OutputStreamWriter;import java.io.Writer;import...
  • Java 读取PDF中的表格

    2021-10-22 09:51:26
    本文以Java示例展示读取PDF中的表格的方法。这里导入Spire.PDF for Javah中的jar包,并使用其提供的相关及方法来实现获取表格中的文本内容。下表中整理了本次代码使用到的主要类、方法及解释,供参考: 类型 ...
  • 在评论中,OP澄清说他从pdf文件中的表中找到文本值他要提取提供X和Y坐标因此,虽然这个问题最初听起来像是从PDF中通用提取表格数据(至少可能很困难),但它实际主要是从坐标给出的页面的矩形区域中提取文本。...
  • java 读取pdf文件

    2021-02-27 22:34:50
    第一步:导入jar包org.apache.pdfboxpdfbox2.0.12第二步:读取文件内容import java.io.File;import org.apache.pdfbox.pdmodel.PDDocument;import org.apache.pdfbox.text.PDFTextStripper;public class PDFUtil {...
  • java读取PDF页数

    2021-09-01 11:46:03
    首先导入依赖jar包 <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox</artifactId> <version>2.0.24</version>...import java
  • 怎么用java读取pdf中的表格关注:168答案:2mip版解决时间 2021-01-31 03:38提问者情婲、毒2021-01-30 10:33怎么用java读取pdf中的表格最佳答案二级知识专家噯倁酒濃2021-01-30 11:19ITEXT插件方法public void ...
  • 此文非原创,来源:http://www.2cto.com/kf/201109/104526.html需要pdfbox和log4j的包举个例子:import org.pdfbox.pdfparser.*;...import java.io.*;/*** 测试pdfbox* @author kingfish* @version 1...
  • 本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法。分别调用方法extractText()和extractImages()来读取。使用工具:Free Spire.PDF for Java(免费版)Jar文件获取导入:方法1:通过官网下载jar文件包。下载...
  • Itext中文处理:在Itext中的中文处理随着Itext的版本变化,采取的方法也在变化。...附件中有所需要的包:示例代码:Java代码package com.lwf.pdf.test;import java.awt.Color;import java.io.FileNotFoundException...
  • Java读取pdf中的数据

    2021-03-12 22:55:25
    Java简单的读取pdf文件中的数据:第二步:写个简单的读取pdf文件的程序。(PdfReader.java)import java.io.File;import java.io.FileOutputStream;import java.io.OutputStreamWriter;import java.io.Writer;import...
  • 用到的jar:itextpdf-5.5.8.jar (PDF)poi.jarpublic class FileUtils {/*** 判断文件是否存在** @Title: isExcite* @param @param filePath* @param @return* @return boolean 返回类型* @throws*/public static ...
  • 本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法。分别调用方法extractText()和extractImages()来读取。使用工具:Free Spire.PDF for Java(免费版)Jar文件获取导入:方法1:通过官网方法2: 可通过 Java...
  • 需要pdfbox和log4j的包举个例子:import org.pdfbox.pdfparser.*;import org.pdfbox.util....import java.io.*;/*** 测试pdfbox* @author kingfish* @version 1.0*/public class TestPdf {public static void main(...
  • OFFICE文档使用POI控件,PDF可以使用PDFBOX0.7.3控件,完全支持中文,用XPDF也行,不过感觉PDFBOX比较好,而且作者也在更新。水平有限,万望各位指正。WORD:import org.apache.lucene.document.Document;import org....
  • -- PDF转图片 --> <dependency> <groupId>org.icepdf.os</groupId> <artifactId>icepdf-core</artifactId> <version>6.2.2</version> <exclusions> &
  • 读取pdf文件jar引用org.apache.pdfboxpdfbox1.8.13读取word文件jar引用org.apache.poipoi-scratchpad3.16-beta1org.apache.poipoi3.16-beta1读取word文件方法/**** @title: gettextfromword* @description: 读取word...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 41,637
精华内容 16,654
关键字:

java读取pdf上的内容

java 订阅