-
java解析pdf 图片文字_Java 读取PDF中的文本和图片
2021-02-25 19:06:34本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法。分别调用方法extractText()和extractImages()来读取。使用工具:Free Spire.PDF for Java(免费版)Jar文件获取导入:方法1:通过官网方法2: 可通过Java...本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法。分别调用方法extractText()和extractImages()来读取。
使用工具:Free Spire.PDF for Java(免费版)
Jar文件获取导入:
方法1:通过官网
方法2: 可通过
Java代码示例
【示例1】读取PDF中的文本
import com.spire.pdf.*;
import java.io.FileWriter;
import java.io.IOException;
public class ExtractText {
public static void main(String[]args) throws Exception {
//加载测试文档
PdfDocument pdf = new PdfDocument("sample.pdf");
//实例化StringBuilder类
StringBuilder sb = new StringBuilder();
//定义一个int型变量
int index = 0;
//遍历PDF文档中每页
PdfPageBase page;
for (int i= 0; i
page = pdf.getPages().get(i);
//调用extractText()方法提取文本
sb.append(page.extractText(true));
FileWriter writer;
try {
//将StringBuilder对象中的文本写入到txt
writer = new FileWriter("ExtractText.txt");
writer.write(sb.toString());
writer.flush();
} catch (IOException e) {
e.printStackTrace();
}
}
pdf.close();
}
}
文本读取效果:
【示例2】读取PDF中的图片
import com.spire.pdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
public class ExtractImg {
public static void main(String[] args) throws Exception{
//加载测试文档
PdfDocument pdf = new PdfDocument();
pdf.loadFromFile("test.pdf");
//定义一个int型变量
int index = 0;
//遍历PDF每一页
for (int i= 0;i< pdf.getPages().getCount(); i ++){
//获取PDF页面
PdfPageBase page = pdf.getPages().get(i);
//使用extractImages方法获取页面上图片
for (BufferedImage image : page.extractImages()) {
//指定输出图片名称
File output = new File( String.format("Image_%d.png", index++));
//将图片保存为PNG格式文件
ImageIO.write(image, "PNG", output);
}
}
}
}
图片读取结果:
(本文完)
-
java 解析pdf图片文字_Java 提取/读取PDF中的图片
2021-02-13 00:43:02import com.spire.pdf.*;...import java.awt.image.BufferedImage;import java.io.File;public class ExtractImg {public static void main(String[] args) throws Exception{//加载测试文档Pdf...import com.spire.pdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
public class ExtractImg {
public static void main(String[] args) throws Exception{
//加载测试文档
PdfDocument pdf = new PdfDocument();
pdf.loadFromFile("test.pdf");
//定义一个int型变量
int index = 0;
//遍历PDF每一页
for (int i= 0;i< pdf.getPages().getCount(); i ++){
//获取PDF页面
PdfPageBase page = pdf.getPages().get(i);
//使用extractImages方法获取指定页上图片
for (BufferedImage image : page.extractImages()) {
//指定输出图片名称
File output = new File( String.format("Image_%d.png", index++));
//将图片保存为PNG格式
ImageIO.write(image, "PNG", output);
}
}
}
}
-
java解析pdf,文字、表格、图片
2020-04-02 15:39:34java解析pdf添加spire.pdf依赖,依赖需要下载到本地仓库
<repositories> <repository> <id>com.e-iceblue</id> <name>e-iceblue</name> <url>http://repo.e-iceblue.com/nexus/content/groups/public/</url> </repository> </repositories> <dependency> <groupId>e-iceblue</groupId> <artifactId>spire.pdf</artifactId> <version>2.2.0</version> </dependency>
public static void main(String[] args) { try { PdfDocument doc = new PdfDocument(); doc.loadFromFile("C:\\TTT\\test\\day01.pdf"); StringBuilder sb = new StringBuilder(); PdfPageBase page; for (int i = 0; i < doc.getPages().getCount(); i++) { //获取每一行的page对象 page = doc.getPages().get(i); sb.append(page.extractText(true)); // 这个if中是图片的解析输出 if (page.extractImages() != null) { for (BufferedImage image : page.extractImages()) { if (image != null) { //指定输出图片名,指定图片格式,后缀自己换 File output = new File("C:\\TTT\\test\\copy\\a.png"); ImageIO.write(image, "PNG", output); } } } } System.out.println(sb); doc.close(); } catch (Exception e) { e.printStackTrace(); } }
-
java解析PDF
2019-08-05 15:48:28java解析PDF文件(汉字及图片) 在工程需求中如何处理java解析pdf文件。 首先准备jar包:Spire.Pdf.jar,本人使用的是2.6.3版本。 1、解析pdf文字格式: public static String ExportPDFUtil(String fileName) ...java解析PDF文件(汉字及图片)
在工程需求中如何处理java解析pdf文件。
首先准备jar包:Spire.Pdf.jar,本人使用的是2.6.3版本。
1、解析pdf文字格式:public static String exportPDFUtil(String fileName) { // 创建PdfDocument实例 PdfDocument doc = new PdfDocument(); // 加载PDF文件 doc.loadFromFile(fileName); StringBuilder sb = new StringBuilder(); PdfPageBase page; // 遍历PDF页面,获取文本 for (int i = 0; i < doc.getPages().getCount(); i++) { page = doc.getPages().get(i); sb.append(page.extractText(true)); // 去除文件中的空白符 sb.toString().replaceAll("\\s", ""); } doc.close(); return sb.toString(); }
2、解析pdf图片格式:
public static void main(String[] args) { // 创建PdfDocument实例 PdfDocument doc = new PdfDocument(); // 加载PDF文件 doc.loadFromFile("E:\\test\\testq.pdf"); int index = 0; // 遍历PDF文件中的页面 for (PdfPageBase page : (Iterable<PdfPageBase>) doc.getPages()) { // 提取页面中的图片并保存至本地文件夹 for (BufferedImage image : page.extractImages()) { File output = new File("E:/test/" + String.format("Image_%d.png", index++)); try { ImageIO.write(image, "PNG", output); } catch (IOException e) { e.printStackTrace(); } } } }
-
java解析pdf中的图片并获取其中的文字
2020-09-09 09:20:38更多的人是想先实现后理解吧,在这里有一个重要的东西叫做驯化文件目录,少了这个东西的话就很不好操作,话不多说,上代码,首先上场的是解析pdf为图片并保存至自定义文件夹中` PdfDocument doc = new PdfDocument... -
java如何解析图片里面文字_如何提取PDF图片和文字!学会这4个简单方法,从此再也不用加班...
2020-11-04 18:26:02如何提取PDF图片和文字!学会这4个简单方法,从此再也不用加班 如何在工作中快速提取PDF文件里的图片和文字?这对很多上班族来说是件困难的事情。今天小黑就给大家来分享我的4个快速提取PDF图片和文字的方法,学会后... -
【Java】基于Pdfbox解析PDF文档中指定位置的文字和图片
2020-12-22 15:40:10Apache PDFBox是一个开源Java库,支持PDF文档的开发和转换。 我们可以使用PDFBox开发可以创建,转换和操作PDF文档的Java程序。PDFBox的主要功能: Extract Text – 使用PDFBox,您可以从PDF文件中提取Unicode文本。 ... -
java解析pdf格式文件获取文本内容
2019-11-05 18:34:10思路:先将pdf按照页数分割成图片,在将分割的图片做图片识别,提取文字,最后将提取到的文字解析或者保存到txt文件。 图片识别我使用的是百度开发者中心提供的图片识别接口,我在上一篇文章中有详细说明,这里直接... -
docx java 图片_java解析docx文档提取文字和图片
2021-02-25 18:09:41直接上代码fr.opensagres.xdocreportorg.apache.poi.xwpf.converter.pdf1.0.6package docxAnalyze;import java.io.*;import java.util.List;import org.apache.poi.xwpf.extractor.XWPFWordExtractor;import org.... -
java 解析pdf 从中抽取出表格的信息,大神怎么做
2015-12-24 01:56:17通过解析pdf,将pdf中的表格、图片、文字进行分类提取。怎么做? -
java如何解析图片里面文字_如何提高录入效率?这两个图片转文字方法值得收藏...
2020-11-25 00:00:34有时候我们收到一些带有信息的图片文件,这些图片文件内的文字我们只能看但不能进行编辑整理,...电脑端:在电脑端我们可以选择带有OCR文字识别的工具将图片或者PDF文件进行识别。通过将里面文字识别提取出来,减少... -
Java实现PDF读写(Itext)与解析XML读写(Dom4j)
2017-06-20 15:40:174、生成一个PDF文件:D:\\zhouyl\\BTImagePDF.pdf,第一列为文字,第二列为图片(pdfTable),并自动调整图片大小 5、生成一个PDF文件:D:\\zhouyl\\BTPdf.pdf,显示单元格表头和每一列的数据 6、将XML文件:D:/... -
JAVA解析docx文档提取文字和图片
2020-11-14 22:08:09<dependency> <groupId>...org.apache.poi.xwpf.converter.pdf</artifactId> <version>1.0.6</version> </dependency> package docxAnalyze; import jav -
使用Java 将前台传回的数据,打印成PDF,并插入图片
2018-11-01 16:40:45前段时间,因项目需求,需要将数据图片打印成PDF下载保存, 项目采用前后端分离模式,前端采用angular,后端springboot, 流程:1.前端返回JSON对象,2.后端接收JSON对象,将之转化成json字符串,并解析成 list ... -
java通过freemarker模板导出pdf
2019-09-24 03:18:26需求:将网页内容导出为pdf文件,其中包含文字,图片,echarts图 原理:利用freemarker模板与数据渲染所得到的html内容,通过ITextRenderer对象解析html内容生成pdf 参考地址: 导出pdf ...带有图片 ... -
pdfbox创建pdf_使用PDFBox处理PDF文档(新建PDF文件、修改PDF文件、PDF中插入图片、将PDF文件转换为图片)....
2020-12-20 00:22:44项目需要在原有的PDF文件中插入图片、文字,并将最终的PDF文件转换为图片,在网上找了很多Demo,现在开源可以解析处理PDF文件的第三方插件比较多,eg:IText、PDFBox等,现在就PDFBox解析处理PDF文件总结如下:... -
FolioReader-Android:适用于Android的Java ePub阅读器和解析器框架-源码
2021-01-30 00:48:48解析epub封面图片 PDF支持 书籍搜寻 将注释添加到突出显示 更好的文档 最近读取的定位器 横向阅读 分心免费阅读 演示版 自定义字体 白天和黑夜模式 文字突出显示 媒体重叠 Gradle 在根项目的build.gradle... -
java Ofd 转图片_c#实现ofd文件转图片功能 (附执行程序)
2021-03-17 21:12:54前言 ofd文件的作用就是保证信息能如实...专用软件读取ofd过程包括对ofd文件解压缩、分析每页的文字和图元、关联对应的资源、解析签章等复杂操作。将ofd文件转成图片,可以避免这些重复的操作;ofd转成图片后,就可...