精华内容
下载资源
问答
  • 本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法。分别调用方法extractText()和extractImages()来读取。使用工具:Free Spire.PDF for Java(免费版)Jar文件获取导入:方法1:通过官网方法2: 可通过Java...

    本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法。分别调用方法extractText()和extractImages()来读取。

    使用工具:Free Spire.PDF for Java(免费版)

    Jar文件获取导入:

    方法1:通过官网

    方法2: 可通过

    594c3f2fff3a590e9e5002202d55b42f.png

    Java代码示例

    【示例1】读取PDF中的文本

    import com.spire.pdf.*;

    import java.io.FileWriter;

    import java.io.IOException;

    public class ExtractText {

    public static void main(String[]args) throws Exception {

    //加载测试文档

    PdfDocument pdf = new PdfDocument("sample.pdf");

    //实例化StringBuilder类

    StringBuilder sb = new StringBuilder();

    //定义一个int型变量

    int index = 0;

    //遍历PDF文档中每页

    PdfPageBase page;

    for (int i= 0; i

    page = pdf.getPages().get(i);

    //调用extractText()方法提取文本

    sb.append(page.extractText(true));

    FileWriter writer;

    try {

    //将StringBuilder对象中的文本写入到txt

    writer = new FileWriter("ExtractText.txt");

    writer.write(sb.toString());

    writer.flush();

    } catch (IOException e) {

    e.printStackTrace();

    }

    }

    pdf.close();

    }

    }

    文本读取效果:

    17dee5ceb5d9257b783916490725dc36.png

    【示例2】读取PDF中的图片

    import com.spire.pdf.*;

    import javax.imageio.ImageIO;

    import java.awt.image.BufferedImage;

    import java.io.File;

    public class ExtractImg {

    public static void main(String[] args) throws Exception{

    //加载测试文档

    PdfDocument pdf = new PdfDocument();

    pdf.loadFromFile("test.pdf");

    //定义一个int型变量

    int index = 0;

    //遍历PDF每一页

    for (int i= 0;i< pdf.getPages().getCount(); i ++){

    //获取PDF页面

    PdfPageBase page = pdf.getPages().get(i);

    //使用extractImages方法获取页面上图片

    for (BufferedImage image : page.extractImages()) {

    //指定输出图片名称

    File output = new File( String.format("Image_%d.png", index++));

    //将图片保存为PNG格式文件

    ImageIO.write(image, "PNG", output);

    }

    }

    }

    }

    图片读取结果:

    8da1c78a13350a492c903d045dc0b9a7.png

    (本文完)

    展开全文
  • import com.spire.pdf.*;...import java.awt.image.BufferedImage;import java.io.File;public class ExtractImg {public static void main(String[] args) throws Exception{//加载测试文档Pdf...

    import com.spire.pdf.*;

    import javax.imageio.ImageIO;

    import java.awt.image.BufferedImage;

    import java.io.File;

    public class ExtractImg {

    public static void main(String[] args) throws Exception{

    //加载测试文档

    PdfDocument pdf = new PdfDocument();

    pdf.loadFromFile("test.pdf");

    //定义一个int型变量

    int index = 0;

    //遍历PDF每一页

    for (int i= 0;i< pdf.getPages().getCount(); i ++){

    //获取PDF页面

    PdfPageBase page = pdf.getPages().get(i);

    //使用extractImages方法获取指定页上图片

    for (BufferedImage image : page.extractImages()) {

    //指定输出图片名称

    File output = new File( String.format("Image_%d.png", index++));

    //将图片保存为PNG格式

    ImageIO.write(image, "PNG", output);

    }

    }

    }

    }

    展开全文
  • java解析pdf

    添加spire.pdf依赖,依赖需要下载到本地仓库

    <repositories>
        <repository>
            <id>com.e-iceblue</id>
            <name>e-iceblue</name>
            <url>http://repo.e-iceblue.com/nexus/content/groups/public/</url>
        </repository>
    </repositories>
    
    <dependency>
        <groupId>e-iceblue</groupId>
        <artifactId>spire.pdf</artifactId>
        <version>2.2.0</version>
    </dependency>
    public static void main(String[] args) {
        try {
            PdfDocument doc = new PdfDocument();
            doc.loadFromFile("C:\\TTT\\test\\day01.pdf");
            StringBuilder sb = new StringBuilder();
            PdfPageBase page;
            for (int i = 0; i < doc.getPages().getCount(); i++) {
                //获取每一行的page对象
                page = doc.getPages().get(i);
                sb.append(page.extractText(true));
                // 这个if中是图片的解析输出
                if (page.extractImages() != null) {
                    for (BufferedImage image : page.extractImages()) {
                        if (image != null) {
                            //指定输出图片名,指定图片格式,后缀自己换
                            File output = new File("C:\\TTT\\test\\copy\\a.png");
                            ImageIO.write(image, "PNG", output);
                        }
                    }
                }
            }
            System.out.println(sb);
            doc.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
    
    }
    展开全文
  • java解析PDF

    千次阅读 2019-08-05 15:48:28
    java解析PDF文件(汉字及图片) 在工程需求中如何处理java解析pdf文件。 首先准备jar包:Spire.Pdf.jar,本人使用的是2.6.3版本。 1、解析pdf文字格式: public static String ExportPDFUtil(String fileName) ...

    java解析PDF文件(汉字及图片)

    在工程需求中如何处理java解析pdf文件。

    首先准备jar包:Spire.Pdf.jar,本人使用的是2.6.3版本。
    在这里插入图片描述
    1、解析pdf文字格式:

    				public static String exportPDFUtil(String fileName) {
    					// 创建PdfDocument实例
    					PdfDocument doc = new PdfDocument();
    					// 加载PDF文件
    					doc.loadFromFile(fileName);
    					StringBuilder sb = new StringBuilder();
    					PdfPageBase page;
    					// 遍历PDF页面,获取文本
    					for (int i = 0; i < doc.getPages().getCount(); i++) {
    						page = doc.getPages().get(i);
    						sb.append(page.extractText(true));
    						// 去除文件中的空白符
    						sb.toString().replaceAll("\\s", "");
    					}
    					doc.close();
    					return sb.toString();
    				}
    

    2、解析pdf图片格式:

    				public static void main(String[] args) {
    				// 创建PdfDocument实例
    				PdfDocument doc = new PdfDocument();
    				// 加载PDF文件
    				doc.loadFromFile("E:\\test\\testq.pdf");
    				int index = 0;
    				// 遍历PDF文件中的页面
    				for (PdfPageBase page : (Iterable<PdfPageBase>) doc.getPages()) {
    					// 提取页面中的图片并保存至本地文件夹
    					for (BufferedImage image : page.extractImages()) {
    						File output = new File("E:/test/" + String.format("Image_%d.png", index++));
    						try {
    							ImageIO.write(image, "PNG", output);
    						} catch (IOException e) {
    							e.printStackTrace();
    						}
    					}
    				}
    			}
    
    展开全文
  • 更多的人是想先实现后理解吧,在这里有一个重要的东西叫做驯化文件目录,少了这个东西的话就很不好操作,话不多说,上代码,首先上场的是解析pdf图片并保存至自定义文件夹中` PdfDocument doc = new PdfDocument...
  • 如何提取PDF图片文字!学会这4个简单方法,从此再也不用加班 如何在工作中快速提取PDF文件里的图片和文字?这对很多上班族来说是件困难的事情。今天小黑就给大家来分享我的4个快速提取PDF图片文字的方法,学会后...
  • Apache PDFBox是一个开源Java库,支持PDF文档的开发和转换。 我们可以使用PDFBox开发可以创建,转换和操作PDF文档的Java程序。PDFBox的主要功能: Extract Text – 使用PDFBox,您可以从PDF文件中提取Unicode文本。 ...
  • java解析pdf格式文件获取文本内容

    千次阅读 2019-11-05 18:34:10
    思路:先将pdf按照页数分割成图片,在将分割的图片图片识别,提取文字,最后将提取到的文字解析或者保存到txt文件。 图片识别我使用的是百度开发者中心提供的图片识别接口,我在上一篇文章中有详细说明,这里直接...
  • 直接上代码fr.opensagres.xdocreportorg.apache.poi.xwpf.converter.pdf1.0.6package docxAnalyze;import java.io.*;import java.util.List;import org.apache.poi.xwpf.extractor.XWPFWordExtractor;import org....
  • 通过解析pdf,将pdf中的表格、图片文字进行分类提取。怎么做?
  • 有时候我们收到一些带有信息的图片文件,这些图片文件内的文字我们只能看但不能进行编辑整理,...电脑端:在电脑端我们可以选择带有OCR文字识别的工具将图片或者PDF文件进行识别。通过将里面文字识别提取出来,减少...
  • 4、生成一个PDF文件:D:\\zhouyl\\BTImagePDF.pdf,第一列为文字,第二列为图片(pdfTable),并自动调整图片大小 5、生成一个PDF文件:D:\\zhouyl\\BTPdf.pdf,显示单元格表头和每一列的数据 6、将XML文件:D:/...
  • <dependency> <groupId>...org.apache.poi.xwpf.converter.pdf</artifactId> <version>1.0.6</version> </dependency> package docxAnalyze; import jav
  • 前段时间,因项目需求,需要将数据图片打印成PDF下载保存, 项目采用前后端分离模式,前端采用angular,后端springboot, 流程:1.前端返回JSON对象,2.后端接收JSON对象,将之转化成json字符串,并解析成 list ...
  • 需求:将网页内容导出为pdf文件,其中包含文字图片,echarts图 原理:利用freemarker模板与数据渲染所得到的html内容,通过ITextRenderer对象解析html内容生成pdf 参考地址: 导出pdf ...带有图片 ...
  • 项目需要在原有的PDF文件中插入图片文字,并将最终的PDF文件转换为图片,在网上找了很多Demo,现在开源可以解析处理PDF文件的第三方插件比较多,eg:IText、PDFBox等,现在就PDFBox解析处理PDF文件总结如下:...
  • 解析epub封面图片 PDF支持 书籍搜寻 将注释添加到突出显示 更好的文档 最近读取的定位器 横向阅读 分心免费阅读 演示版 自定义字体 白天和黑夜模式 文字突出显示 媒体重叠 Gradle 在根项目的build.gradle...
  • 前言 ofd文件的作用就是保证信息能如实...专用软件读取ofd过程包括对ofd文件解压缩、分析每页的文字和图元、关联对应的资源、解析签章等复杂操作。将ofd文件转成图片,可以避免这些重复的操作;ofd转成图片后,就可...

空空如也

空空如也

1 2 3 4 5
收藏数 85
精华内容 34
关键字:

java解析pdf图片文字

java 订阅