精华内容
下载资源
问答
  • def pdf_to_img(): print("请输入pdf文件路径") # 需要转换的pdf文件路径 pdfPath = tkinter.filedialog.askopenfilename() father_path = os.path.abspath(os.path.dirname(pdfPath) + os.path.sep + ".") doc...
    
    
    def pdf_to_img():
        print("请输入pdf文件路径")
        # 需要转换的pdf文件路径
        pdfPath = tkinter.filedialog.askopenfilename()
        father_path = os.path.abspath(os.path.dirname(pdfPath) + os.path.sep + ".")
        doc = fitz.open(pdfPath)
        imgFile = father_path + '\\img'
        if(os.path.exists(imgFile)):
            shutil.rmtree(imgFile)
        os.mkdir(imgFile)
        print("正在转换中~~~~")
        pageCount = 100/doc.pageCount
        beilv = pageCount
        for pg in range(doc.pageCount):
            print(str(round(pageCount, 2)) + '%')
            pageCount += beilv
            page = doc[pg]
            rotate = int(0)
            # 每个尺寸的缩放系数为2,这将为我们生成分辨率提高四倍的图像。
            zoom_x = 2.0
            zoom_y = 2.0
            trans = fitz.Matrix(zoom_x, zoom_y).preRotate(rotate)
            pm = page.getPixmap(matrix=trans, alpha=False)
            pm.writePNG(imgFile + '\\%s.png' % pg)
        return imgFile
    
    def convertImg():
        # pdf转换成一个一个图片的图片存放路径
        imgPath = pdf_to_img()
        print("已完成pdf转换至图片的任务~")
        # 转换成功后的文件路径
        wordFile = tkinter.filedialog.asksaveasfilename()
        APP_ID = "23403595"
        API_KEY = "MIvoIhkmsYHPiA2LOZmSu3o3"
        SECRET_KEY = "E063BVdf2kemnjF4hv9lcG0Xg5Of065k"
        client = AipOcr(APP_ID, API_KEY, SECRET_KEY)
        imgs = os.listdir(imgPath)
        if not os.path.exists(wordFile):
            os.mknod(wordFile)
        wordFileName = open(wordFile, 'w')
        processCount = 100/len(imgs)
        beilv = processCount
        print("正在将文字存至电脑中~~~")
        for img in imgs:
            print(str(round(processCount, 2)) + '%')
            processCount += beilv
            dakai = open(imgPath + "/" + img, "rb")
            duqu = dakai.read()
            message = client.basicGeneral(duqu)
            for duqu in message.get("words_result"):
                words = duqu.get("words")
                wordFileName.write(words)
            wordFileName.write("\r\n")
        if (os.path.exists(imgPath)):
            shutil.rmtree(imgPath)
        print("完成")
    
    
    
    if __name__ == '__main__':
        convertImg()
    
    
    
    
    
    
    
    
    展开全文
  • pdf分为**文字版和扫描版,**文字版可以单独复制每个文字; 扫描版是由一张张图片存储的,没法对文字进行复制、搜索等常规操作。 我们需要复制某段经典的文字,扫描版是图片无法操作; 我们需要快速搜索定位,扫描版...

    pdf分为文字版和扫描版,文字版可以单独复制每个文字; 扫描版是由一张张图片存储的,没法对文字进行复制、搜索等常规操作。

    我们需要复制某段经典的文字,扫描版是图片无法操作;

    我们需要快速搜索定位,扫描版无法查询;

    我们需要在多个pdf文档中找到某段话的出处,扫描版、pdf工具都是让人头痛的事;

    我们需要将pdf还原为word,扫描版让你一个字一个字的敲键盘,心累;

    甚至pdf被加密了,却无法执行任何操作,只可看不可动;

    是不是就真的没有办法了呢?

    推荐一个强大的pdf编辑软件“adobe acrobat pro”,以上的所有问题都能迎刃而解,学会这几个技能,玩出pdf新花样。
    1. OCR文本识别
    可以对整个pdf执行OCR文本识别操作,转为文本后在保存,就可以执行文本复制、搜索定位等操作;

    2. 多个pdf搜索定位
    可以用该软件的高级搜索对某个文件夹下的所有pdf执行搜索,并返回所有的搜索结果;

    3. pdf转word
    将扫描版的pdf用ocr识别后,可直接导出为word,我们只需要进行少量的调整和排版即可以word格式复原pdf。

    具体操作见如下视频教程:

    https://www.zhihu.com/zvideo/1341157666538823680

    pdf软件及案例材料获取:
    https://pan.baidu.com/s/1-euGRwPIs73-T8yKb_UqWQ
    提取码: fxd5

    展开全文
  • Java pdf转高清图片

    2021-03-08 20:31:54
    /** * @author: GPJ * @Description: pdf 单张高清图片 * @Date Created in 9:27 2018/1/9 * @Modified By: */ public class IcePdf { public static void pdf2Pic(String pdfPath, String path){ Document ...

    package com.hyb.kai.web.controller;

    import java.awt.image.BufferedImage;

    import java.awt.image.RenderedImage;

    import java.io.File;

    import java.io.IOException;

    import javax.imageio.ImageIO;

    import org.icepdf.core.pobjects.Document;

    import org.icepdf.core.util.GraphicsRenderingHints;

    /**

    * @author: GPJ

    * @Description: pdf 转单张高清图片

    * @Date Created in 9:27 2018/1/9

    * @Modified By:

    */

    public class IcePdf {

    public static void pdf2Pic(String pdfPath, String path){

    Document document = new Document();

    document.setFile(pdfPath);

    //缩放比例

    float scale = 2.5f;

    //旋转角度

    float rotation = 0f;

    for (int i = 0; i < document.getNumberOfPages(); i++) {

    BufferedImage image = (BufferedImage)

    document.getPageImage(i, GraphicsRenderingHints.SCREEN, org.icepdf.core.pobjects.Page.BOUNDARY_CROPBOX, rotation, scale);

    RenderedImage rendImage = image;

    try {

    String imgName = i + ".png";

    System.out.println(imgName);

    File file = new File(path + imgName);

    ImageIO.write(rendImage, "png", file);

    } catch (IOException e) {

    e.printStackTrace();

    }

    image.flush();

    }

    document.dispose();

    }

    public static void main(String[] args) {

    String filePath = "D:\\bbb.pdf";

    pdf2Pic(filePath, "D:\\bb");

    }

    }

    所需jar包链接:

    https://pan.baidu.com/s/1c3h4nkc

    展开全文
  • importjava.awt.Color;importjava.io.File;... String pdfUrl= "C:\\pdf.pdf"; File file=gp .Pdf("C:\\683.JPG",pdfUrl);try{ file.createNewFile(); }catch(IOException e) { e.printStackTrace(); } } }

    importjava.awt.Color;importjava.io.File;importjava.io.FileNotFoundException;importjava.io.FileOutputStream;importjava.io.IOException;importcom.lowagie.text.Document;importcom.lowagie.text.DocumentException;importcom.lowagie.text.Element;importcom.lowagie.text.Font;importcom.lowagie.text.FontFactory;importcom.lowagie.text.Image;importcom.lowagie.text.PageSize;importcom.lowagie.text.Phrase;importcom.lowagie.text.pdf.ColumnText;importcom.lowagie.text.pdf.PdfContentByte;importcom.lowagie.text.pdf.PdfWriter;public classGeneratePdf {private voidhandleText(PdfWriter writer, String content, String color,float x, float y, floatz) {

    PdfContentByte canvas=writer.getDirectContent();

    Phrase phrase= newPhrase(content);if (color != null) {

    phrase= newPhrase(content, FontFactory.getFont(

    FontFactory.COURIER,12, Font.NORMAL, new Color(255, 0, 0)));

    }

    ColumnText.showTextAligned(canvas, Element.ALIGN_UNDEFINED, phrase, x,

    y, z);

    }publicFile Pdf(String imagePath, String mOutputPdfFileName) {

    Document doc= new Document(PageSize.A4, 20, 20, 20, 20);try{

    PdfWriter writer= PdfWriter.getInstance(doc, newFileOutputStream(

    mOutputPdfFileName));

    doc.open();

    doc.newPage();

    Image png1=Image.getInstance(imagePath);float heigth =png1.getHeight();float width =png1.getWidth();int percent = this.getPercent2(heigth, width);

    png1.setAlignment(Image.MIDDLE);

    png1.setAlignment(Image.TEXTWRAP);

    png1.scalePercent(percent+ 3);

    doc.add(png1);this.handleText(writer, "This is a test", "red", 400, 725, 0);

    doc.close();

    }catch(FileNotFoundException e) {

    e.printStackTrace();

    }catch(DocumentException e) {

    e.printStackTrace();

    }catch(IOException e) {

    e.printStackTrace();

    }

    File mOutputPdfFile= newFile(mOutputPdfFileName);if (!mOutputPdfFile.exists()) {

    mOutputPdfFile.deleteOnExit();return null;

    }returnmOutputPdfFile;

    }public int getPercent1(float h, floatw) {int p = 0;float p2 = 0.0f;if (h >w) {

    p2= 297 / h * 100;

    }else{

    p2= 210 / w * 100;

    }

    p=Math.round(p2);returnp;

    }private int getPercent2(float h, floatw) {int p = 0;float p2 = 0.0f;

    p2= 530 / w * 100;

    p=Math.round(p2);returnp;

    }public static voidmain(String[] args) {

    GeneratePdf gp= newGeneratePdf();

    String pdfUrl= "C:\\pdf.pdf";

    File file=gp

    .Pdf("C:\\683.JPG",pdfUrl);try{

    file.createNewFile();

    }catch(IOException e) {

    e.printStackTrace();

    }

    }

    }

    展开全文
  • Pdf转换成word文字的好方法自己辛辛苦苦做出来的东西总不希望别人轻轻松松复制就给抄袭了,然后进行一点简单的操作就分辨不出真伪。于是就把pdf给加密了,这样别人就不能轻松的复制,当然你可以利用捷速pdf文字识别...
  • pom引入 <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox</artifactId> <version>2.0.24</version>... * PDF文件PNG图片 *
  • 本文实例为大家分享了java实现pdf按页转换为图片的具体代码,供大家参考,具体内容如下本程序是利用jacob.jar包实现的,关于jacob.jar的配置见我上一篇文章,程序中可配置参数选择图片清晰图。package core.util;...
  • PDF转Word,以及提取Word中图片里的文字 PS: 也是从网上各个帖子中学习的Python,因此代码的格式以及内容有粘贴网上其他大神的代码,如有侵权请告知删除 软件截图: #!/usr/bin/python # -*- coding: gbk -*- ...
  • import pdfplumber import fitz from PIL import Image ...# ##提取pdf文档的文字写入运动报告.txt中 pdf_name=r'C:\Users\Pert\Desktop\公司文档\食物\中国食物成分表 标准版 第6版 第1册_14452917_.pdf.
  • PDF转纯文本:pdftotext -enc GBK godson2e-data.Sheet.pdf text.GBK.txt-enc (encoding)要参照/etc/xpdf/xpdfrc 里面提到的编码格式。对于中文,用GBK就可以了。提取插图:pdfimages godson2e-data.Sheet....
  • 图片转音频图片转文字 Tesseract.js```Tesseract.js```地址 图片转文字 Tesseract.js Tesseract.js是流行的Tesseract OCR引擎的纯Javascript端口。 这个库支持100多种语言,自动文本定位和脚本检测,一个简单的界面...
  • 本软件可将指定文件夹(包括其子文件夹)下所有的PDF文件全部图片或者内容图片(防复制文字,格式仍是PDF),生成的图片或者PDF保存在“输出文件”文件夹中......
  • 最近因为想要看漫画,无奈下载的漫画...实现了以下的几项功能:将当前文件夹下的图片保存到一个pdf中,支持选择pdf大小等如果有需要可以遍历它下面的所有文件夹简单的来说完全满足我将漫画pdf格式的需求了。碰到...
  • pdf转图片

    2020-12-22 15:54:36
    pdf转图片
  • java实现pdf转word(文字)

    2021-02-25 18:10:38
    1:添加依赖 4.0.0 pdfToWord pdfToWord 1.0-SNAPSHOT commons-logging commons-logging 1.2 org.apache.pdfbox fontbox 2.0.11 ... } } 此方法只适合文档型的pdf转换,如果图片的话,转换后无法读取。
  • 这周产品提了一个需求,提供一个空出一些位置的证书图片,将这张图片转为pdf,并将指定的文字(如:学生姓名)打印到证书上的指定位置,做了个demo来实现这个功能。 二、需求分析 实际上需求可以拆解为两个部分 一是...
  • 1、添加maven依赖com.itextpdfitextpdf5.5.13.1org.apache.pdfboxpdfbox2.0.162.1、通过模板生成PDF文件package com.hlwl.common.util;import com.itextpdf.text.*;import com.itextpdf.text.pdf.*;import org....
  • PDFRenderer renderer = new PDFRenderer(doc); int pageCount = doc.getNumberOfPages(); for (int i = 0; i ; i++) { BufferedImage image = renderer.renderImageWithDPI(i,200f); // Windows native // DPI,...
  • 经常会遇到一些pdf里需要添加文字以及签名的操作,通常不同的pdf ...文本转换而来的pdf,可以通过直接工具+修改内容方式修改 如若有是图片转换而来的pdf大量的需要修改,可以考虑先进行ORC,文字提取,然后在进行修改!
  • .Net Core Pdf 转图片

    2021-03-17 10:15:25
    .Net Core Pdf 转图片 1.下载ghostscript在系统安装 https://download.csdn.net/download/qq_43034312/15865083 2.在项目了里NuGet包:Magick.NET-Q16-AnyCPU 我安装过的包 我的代码: ```csharp using System....
  • 在使用word2019将文件.doc转换为pdf文件时候,经常面临图片模糊和文字版权的问题。网上查阅了很多方法,现总结如下: 一、无效方法 方法1、打开word文档,执行”文件——选项——高级”,将如图所示的“图像大小和...
  • 扫描PDF一般是指内容全部是图片PDF文档统称,这种PDF文档一般转换成Word后,Word里也都是图片,一样无法修改,但我们一般成Word就是为了修改,那么怎样才能将这种扫描PDF转成可修改的文字版Word呢? 一般转换的...
  • 有没有图片转文字的免费软件?日常的工作中,有时难免会有纸张文件的往来,但是如果办公桌上要堆积太多纸张,不仅不好整理,找起来也不容易,这时候最好的方式就是将纸张电子化,建立「无纸化的办公桌与办公室」。...
  • 有时我们需要将一份或者多份PDF文件中的图片提取出来,如果采取在线的网站实现的话又担心图片泄漏,手动操作又觉得麻烦,其实用Python也可以轻松搞定!今天就跟大家系统分享几种Python提取 PDF 图片的方法。其实没有...
  • import com.itextpdf.text.BaseColor;import com.itextpdf.text.Font;import com.itextpdf.text.Image;import com.itextpdf.text.pdf.*;import org.junit.Test;import java.io.FileOutputStream;/*...
  • PDF转图片 方式1 fitz pip install fitz pip install PyMuPDF 转换 import fitz import os import time # 将PDF转化为图片 # pdfPath pdf文件的路径 # imgPath 图像要保存的文件夹 # zoom_x x方向的缩放系数 # zoom_...
  • 用fpdf对pdf进行操作注意事项免费的fpdi只支持处理pdf1.4及以下版本,1.5以上就需要用到FPDI PDF-Parser插件使用方法fpdi-1.5.2 fpdf-1.71.文字水印 word.phpsetSourceFile('more.pdf');// iter...
  • 一些网友在整理资料的时候发现,所收获的资料都是图片,大部分的文字内容都在图片上,如果一个字一个字的打出来,需要花费非常多的时间,小编的建议是可以使用图片转文字软件来解决一个问题,那么,图片转文字软件...
  • word转PDF图片消失问题

    千次阅读 2021-01-07 13:55:09
    1、将转换失败的图片用截图软件重新把图片截图,截图后生成的新图片占用空间会变小,将新图片替换到word中,此时转PDF图片就不会消失了 2、或者直接用PS工具将图片改小,改小后替换到word中,此时转PDF图片就...
  • PDF转图片使用的组件是O2S.Components.PDFRender4NET.dll,由于版本的问题导致有些pdf文件转换成图片为空白的,所以升级到4.0.2.0 https://www.cnblogs.com/Daan_z/p/3974721.html 转换图片代码: 1 /// <...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 40,794
精华内容 16,317
关键字:

pdf图片转文字