精华内容
下载资源
问答
  • 全部破解的PDF课件,能够复制粘贴PDF每页的文字,相当完美!
  • Java核心技术卷1 PDF(文字版),有目录,可以复制粘贴文字
  • pdf破解工具,可复制粘贴pdf中的文字,方便
  • 1.使用Word,网上有很多教程,不再赘述。2.使用Sublime,复制完,Ctrl+H 快捷键打开替换。如图在Find一栏输入 \n ,并且打开Regular Expression(最左边),在Replace中敲一个空格。最后选择Replace All即可。...

    1.使用Word,网上有很多教程,不再赘述。

    2.使用Sublime,复制完,Ctrl+H 快捷键打开替换。如图在Find一栏输入 \n ,并且打开Regular Expression(最左边),在Replace中敲一个空格。最后选择Replace All即可。


    展开全文
  • 解决富文本(RichEditControl)复制粘贴文本文字不显示的问题        最近客户在使用富文本控件(RichEditControl)时发现,通过复制粘贴word文档的内容到控件里时,两端的文字...

           最近客户在使用富文本控件(RichEditControl)时发现,通过复制粘贴word文档的内容到控件里时,两端的文字会出现被隐藏的问题。一直以为是控件问题,尝试了各种方式都无法解决,在想放弃的时候灵光乍现,是否是文档格式的问题?随后检查了一下段落格式,果然发现了问题,出现问题的段落文字两端超出了word的宽度范围(如下图),当我把段落格式处理到宽度范围内后,再进行复制粘贴,就没问题了。
    在这里插入图片描述

    展开全文
  • 打开文字识别工具(迅捷PDF转换器),点击图片文字识别——图片文字识别,然后点击选择文件,导入截图图片,图片导入成功,点击开始识别,等待一会儿,识别成功,你就可以复制粘贴文字了,很方便吧。
  • with open('文献论文格式转换器.txt', 'r', encoding='utf-8') as f: temp = [] for s_line in f: for s in s_line: temp.append(s) if temp[-2] == '-': del temp[-2] del temp[-1] else: ...
  • 先说说我为什么要写这篇文章,在这之前,我遇到了一个问题,就是复制不了PDF文字内容,而我偏偏又想获取到。 我尝试了很多办法,先是将PDF转成Word文档,这样就可以从文档中把内容复制出来了,但是这些格式转换的...

    突发奇想

    先说说我为什么要写这篇文章,在这之前,我遇到了一个问题,就是复制不了PDF的文字内容,而我偏偏又想获取到。
    我尝试了很多办法,先是将PDF转成Word文档,这样就可以从文档中把内容复制出来了,但是这些格式转换的工具基本都收费,自然就不用再考虑了。
    我还想过将要复制的文字部分截图下来,然后发到手机上,通过手机QQ的提取文字内容功能将文字提取出来然后复制:
    在这里插入图片描述
    在这里插入图片描述
    效果很好,也实现了我的需求,但是未免太麻烦了,要截图,还要发到手机上,于是我陷入了深深的思考,我能不能自己实现这样的功能呢?

    学编程为了什么,就是解决问题嘛,所以,我考虑了一下,QQ是如何实现这个功能的。毫无疑问,是文字识别,通过一张图片,然后识别图片里的文字,最后显示出来。

    准备工作

    搞清楚原理之后,就要解决该如何实现文字识别呢?自己实现显然不现实,自己也不会啊,在百度上搜索了一下,我决定使用百度提供的文字识别API。为了使整个过程变得简便,最终决定使用Python语言实现整个过程。

    申请百度识别API

    我们先来申请一下百度的文字识别API。
    百度搜索百度AI开放平台:
    在这里插入图片描述
    点第一个官方链接,进去后点击控制台:
    在这里插入图片描述
    然后会让你注册,有账号的话登录就可以了,登录之后就可以看到控制台,点击左侧导航栏中的文字识别:
    在这里插入图片描述
    然后点击创建应用,信息随便填一填就好了,我这里已经创建好了:
    在这里插入图片描述
    创建好了就先放着,这三个数据到后面是有用的。

    模块介绍

    在写代码之前,我得先介绍一下要使用的模块,先来说说我想实现的功能:
    首先通过截图(QQ截图、微信截图、电脑自带的截图工具都可以)截取需要的文字内容,然后将图片保存到电脑中,接着通过文字识别把图片中的文字进行提取,最后输出。
    先给大家看看效果:
    在这里插入图片描述
    大致功能就是这样,大家也可以根据自己的想法进行拓展。

    keyboard

    先来介绍一下keyboard模块,因为我们要直接获取到截图的图片,肯定不能自己去保存,那样太麻烦,我们要截图完成后自动将图片进行保存,所以我们先监听到键盘的输入。
    先安装keyboard模块,在cmd窗口执行指令:

    pip install keyboard
    

    来体验一下这个模块。

    import keyboard
    
    keyboard.wait(hotkey = 's')
    print("键盘按下了's'")
    

    通过该模块的wait函数可以等待键盘输入,函数参数表示等待的热键,意思是说当执行该程序后,程序会一直等待,直到你键盘按下了’s’程序才会继续执行。
    我们运行该程序,然后按下’s’,运行结果如下:

    键盘按下了's'
    

    学会了这个,接下来的事情就很简单了,我这里用的是QQ的截图,快捷键为:Ctrl + Alt + A,所以我们要监听该快捷键,代码如下:

    import keyboard
    
    print("开始截图")
    keyboard.wait(hotkey = 'ctrl+alt+a')
    print("键盘按下了'ctrl+alt+a'")
    keyboard.wait(hotkey = 'enter')
    print("键盘按下了'enter'")
    print("结束截图")
    

    运行之后,我们正常执行一次截图操作,看下运行结果:

    开始截图
    键盘按下了'ctrl+alt+a'
    键盘按下了'enter'
    结束截图
    

    这样监听截图操作就完成了。

    ImageGrab

    这是一个非常优秀的图像处理库,我们通过它来保存截取的图片,先安装一下该模块:

    pip install Pillow
    

    这是PIL(全程:Pillow)包下的一个模块,所以我们把Pillow包下载好,要用到该模块的一个函数,代码如下:

    import keyboard
    from PIL import ImageGrab 
    
    print("开始截图")
    keyboard.wait(hotkey = 'ctrl+alt+a')
    print("键盘按下了'ctrl+alt+a'")
    keyboard.wait(hotkey = 'enter')
    print("键盘按下了'enter'")
    
    # 保存剪切板快照
    image = ImageGrab.grabclipboard()
    image.save('screen.png')
    
    print("结束截图")
    

    使用也很简单,先通过keyboard模块的wait函数等待我们截图,当按下enter后截图结束,使用ImageGrab模块的grabclipboard函数将截图获取出来,该函数的功能是抓取当前剪切板的快照,然后封装成image返回,接着用image的save函数进行保存,若只写文件名,则图片将保存在当前目录。

    现在我们运行一下项目,然后随意截取一张图片:
    在这里插入图片描述
    虽然这样实现了截图的保存,但细心的同学肯定能发现,第一次截图的时候报错了,然而第二次截图的时候,保存的却是第一次截图的内容,这是为什么呢?
    这是因为grabclipboard函数有一个缓存的问题,操作太快,有时候它就会读取上一次的内容,因为第一个没有读取到图像,所以报错了。
    问题找到了,该如何解决呢?既然是操作太快导致读取了缓存,那就让它慢一点呗,我们加上一个时间的延迟就可以了,代码修改如下:

    import keyboard
    from PIL import ImageGrab 
    import time
    
    print("开始截图")
    keyboard.wait(hotkey = 'ctrl+alt+a')
    print("键盘按下了'ctrl+alt+a'")
    keyboard.wait(hotkey = 'enter')
    print("键盘按下了'enter'")
    
    time.sleep(0.1) # 因为读取截取内容会有一个延迟,导致读取到的是上一次的截图,这里我们主动延迟
    
    # 保存剪切板快照
    image = ImageGrab.grabclipboard()
    image.save('screen.png')
    
    print("结束截图")
    

    这里在保存剪切板快照之前进行了0.1秒的延迟,就能很好地解决这个问题,使用sleep函数需要导入time模块,下载模块指令:

    pip install time
    

    到这里,截取的图片就保存完毕了。

    baidu-aip

    下面介绍百度的文字识别API。
    关于文字识别API的介绍,大家可以查看百度官方的技术文档,我这里只介绍需要使用到的。

    AipOcr

    AipOcr是OCR的Python SDK客户端,为使用OCR的开发人员提供了一系列的交互方法。

    from aip import AipOcr
    
    """ 你的 APPID AK SK """
    APP_ID = '你的 App ID'
    API_KEY = '你的 Api Key'
    SECRET_KEY = '你的 Secret Key'
    
    client = AipOcr(APP_ID, API_KEY, SECRET_KEY)
    

    这三个数据都在之前的应用管理里面呢,粘贴进来就可以了。
    这样便创建了客户端,还可以对客户端进行一些配置,比如连接的超时时间等等,这里就不做配置了。

    通用文字识别

    """ 读取图片 """
    def get_file_content(filePath):
        with open(filePath, 'rb') as fp:
            return fp.read()
    
    image = get_file_content('example.jpg')
    

    这段代码是从官方文档中复制过来的,意思很简单,get_file_content函数通过一个图片的路径将图片转换成二进制数据进行返回,这里的image即为指定图片的二进制数据,有了二进制数据后,就能进行文字识别了。

    • basicGeneral
    • basicAccurate

    这两个方法都可以进行文字识别,不过basicAccurate方法是高精度版本的,具体用哪个方法看大家喜好。

    下面来测试一下我们能否成功提取到图片文字,比如下面的一张图片:
    在这里插入图片描述

    from aip import AipOcr
    
    # 调用百度API识别图片内容
    APP_ID = '18076523'
    API_KEY = 'vlLcZ6VGb88qoAr5IN0OTShw'
    SECRET_KEY = '8KzHr2AvEREYGGwdwIMFZSwTUoPB6LC4'
    
    client = AipOcr(APP_ID,API_KEY,SECRET_KEY) # 生成一个对策
    
    # 获取图片的二进制数据
    def get_file_content(filePath):
    	with open(filePath,'rb') as fp:
    		return fp.read()
    
    image = get_file_content('screen.png')
    
    # 调用文字识别(高精度版)
    text = client.basicAccurate(image)
    
    print(text)
    

    运行结果:
    在这里插入图片描述
    成功获取到文字内容,我们先来处理一下这些数据。
    log_id我们不管,words_result_num应该是识别的文字数量,它把图片中的文字拆分成了几个小块,这里一共四块,文字内容存放在列表words_result中,每个列表由一个字典组成,文本内容的键为words,所以接下来取出文本内容就很简单了:

    from aip import AipOcr
    
    # 3、调用百度API识别图片内容
    APP_ID = '18076523'
    API_KEY = 'vlLcZ6VGb88qoAr5IN0OTShw'
    SECRET_KEY = '8KzHr2AvEREYGGwdwIMFZSwTUoPB6LC4'
    
    client = AipOcr(APP_ID,API_KEY,SECRET_KEY) # 生成一个对策
    
    # 获取图片的二进制数据
    def get_file_content(filePath):
    	with open(filePath,'rb') as fp:
    		return fp.read()
    
    image = get_file_content('screen.png')
    
    # 调用文字识别(高精度版)
    text = client.basicAccurate(image)
    
    # 处理返回的数据
    textList = text['words_result']
    for i in textList:
    	print(i['words'])
    

    运行结果:
    在这里插入图片描述
    到这里,图片的文字识别我们也掌握了。

    程序源代码

    下面是程序的所有代码:

    import time
    import keyboard
    from PIL import ImageGrab
    from aip import AipOcr
    
    # 1、截取图片
    keyboard.wait(hotkey='ctrl+alt+a') # 键盘输入的触发事件
    
    keyboard.wait(hotkey='enter')
    
    time.sleep(0.1) # 因为读取截取内容会有一个延迟,导致读取到的是上一次的截图,这里我们主动延迟
    
    # 2、将图片保存到电脑上
    image = ImageGrab.grabclipboard()
    image.save('screen.png') # 将截取的图片进行保存
    
    # 3、调用百度API识别图片内容
    APP_ID = '18076523'
    API_KEY = 'vlLcZ6VGb88qoAr5IN0OTShw'
    SECRET_KEY = '8KzHr2AvEREYGGwdwIMFZSwTUoPB6LC4'
    
    client = AipOcr(APP_ID,API_KEY,SECRET_KEY) # 生成一个对策
    
    # 获取图片的二进制数据
    def get_file_content(filePath):
    	with open(filePath,'rb') as fp:
    		return fp.read()
    
    image = get_file_content('screen.png')
    
    # 调用文字识别(高精度版)
    text = client.basicAccurate(image)
    textList = text['words_result']
    for i in textList:
    	print(i['words'])
    

    效果在刚开始就演示过了,它可不光能复制PDF文字的内容,因为在哪里都可以进行截图操作,所以诸如一些百度文库的地方,无法复制文字内容,就可以通过这种方式曲线复制。

    最后

    最后我想说的是,要把学习当做自己的乐趣,编程是灵活的,自己遇到一些问题的时候,可以想着自己制作一些小工具,既解决了自己的问题,又能够从中学到很多知识,何乐而不为呢?

    展开全文
  • Learning Python 5th Edition (Python学习手册第五版)可复制粘贴,有目录 This fifth edition completed in 2013 is a revision of the prior, updated to cover both Python 3.3 and 2.7, the current latest ...
  • 复制pdf文字出来是乱码的一种可能的解决方案

    复制pdf文字出来是乱码的一种可能的解决方案

    参考文章:

    (1)复制pdf文字出来是乱码的一种可能的解决方案

    (2)https://www.cnblogs.com/followyourheart/p/5668857.html


    备忘一下。


    展开全文
  • 1.  现在我已经习惯使用latex...老板要把pdf中的文本复制粘贴到word里,但是粘贴后都是乱码。然后我想把pdf转成doc格式的。从《电脑爱好者_2009年第3期_2月上.pdf》看到文章作者的对比实验,Solid Converter PDF这个
  • 很多项目中都会有预览pdf文件,普通的可以直接使用a标签来实现该功能,但是此预览是浏览器自带的,有时候项目需求中会有禁止用户禁止下载和打印功能,浏览器自带的是无法满足的。 小编在网上找到pdf.js插件,pdf.js...
  • PDF:解决从PDF复制文字时出现的空方框问题 目录 解决问题 解决思路 解决问题 解决从PDF复制文字时出现的空方框问题 解决思路 将该pdf文档另存为html格式,然后打开html文件,复制文字...
  • 我们在很多的系统的操作中,对于网页的操作需要复制粘贴是很正常的时候,那我们在使用中有小伙伴发现自己的网页无法复制粘贴的情况,遇到这个问题我们在遇到需要的资料的时候就不会复制了,这对于我们来说是很麻烦的...
  • PDF 文字识别

    2020-03-14 20:09:07
    但是如果此时PDF 是图片格式那就沒有辦法去复制粘贴,这个时候需要把PDF 转为word 文档,或者把字copy 出来。OCR 技术就可以解决这个问题。很多PDF 阅读器其实内嵌了这种功能,但是都要付费。。。因为穷…以及不服,...
  • PDF文件在生活中很常见的格式,现在很多文件都是以...这就需要识别PDF文字的软件。这类文字识别软件可以帮助我们一键识别文件,省去了手动输入文字的烦恼,下面教大家PDF文字识别的方法。 识别PDF文件推荐使用得力...
  • 如何结决PDF中的文字无法复制或选中(使用Adobe Acrobat X Pro转换双重PDF) 很多时候我们从网上下载到的PDF无法选中其中的字体,我们又恰好需要这些文字,如果一个一个的自己打出来又比较浪费时间,很多人会想截图的...
  • 需要从PDF复制文字出来做笔记,可是谁知道PDF通过adobe打开后复制出来后是乱码,如下图所示: (再次感谢guide哥整理的文档) 解决 尝试过安装字体,可惜没卵用。 方法1-CAJViewer打开 用该软件打开后复制,可以...
  • 是不是还在为网页上不能复制粘贴的内容感到头秃,开会员又舍不得,虽然可能只是一杯奶茶的价钱,但是遇到这种尴尬的境地,就越发的不舍得花钱。那么没关系,今天小编就来给大家分享几招,帮你,轻松实现网页内容复制...
  • 使用IText实现多图片转PDF文件
  • PDF复制文字到word时,都会有回车符,要一个一个删掉回车符会非常麻烦,这里介绍一下怎么在word中快速替换掉回车符。 step1:把PDF中的文字复制到word中,并选中要删掉回车符的部分,如下图中灰色部分所示: ...
  • 要把PDF文件内容转换成word文字...如果文档内容不多,可以借助pdf阅读器来复制粘贴。 先用PDF阅读器打开pdf文档,新建一个word文档。 然后用用鼠标选择几页内容,进行复制,然后粘贴到word中。粘贴好后保存word文
  • 如果你阅读的pdf格式的文件,不能复制,说明上锁了。文件-》文档属性-安全。 这里 就是想办法 开锁。 网上有免费的pdf开锁工具 搜索speedpdf 并打开这款在线免费转换工具后,选择首页中的Unlock PDF(解密PDF)...
  • 关键字:caj转pdf文字复制 摘要 知网CAJ转PDF,一般都是通过虚拟打印机打印成PDF文件,但是去无法获取其中的文字信息。本文主要阐述如何通过易转换CAJ转可查找PDF功能,让你的CAJ转换出来的PDF有目录书签,可以...
  • 问题描述 从PDF复制文字粘贴,结果每行出现换行。影响最大的就是笔者google翻译论文的时候,效果很差
  • 1、安装cajviewer 这个工具 2、用CAJviewer打开pdf文档 3、选择图像4、点文字识别,这时候就弹窗一个框,里面是可复制的文本,而且准确率比较高 转载于:...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,938
精华内容 1,975
关键字:

怎么复制粘贴pdf的文字