精华内容
下载资源
问答
  • Python3爬虫下载pdf(一)最近在学习python的爬虫,并且玩的不亦说乎,因此写个博客,记录并分享一下。需下载以下模块bs4 模块requests 模块一、源码"""功能:下载指定url内的所有的pdf语法:将含有pdf的url放到脚本...

    Python3爬虫下载pdf(一)

    最近在学习python的爬虫,并且玩的不亦说乎,因此写个博客,记录并分享一下。

    需下载以下模块

    bs4 模块

    requests 模块

    一、源码

    """

    功能:下载指定url内的所有的pdf

    语法:将含有pdf的url放到脚本后面执行就可以了

    """

    from bs4 import BeautifulSoup as Soup

    import requests

    from sys import argv

    try:

    ##用于获取命令行参数,argv[0]是脚本的名称

    root_url = argv[1]

    except:

    print("please input url behind the script!!")

    exit()

    ##获得含有所有a标签的一个列表

    def getTagA(root_url):

    res = requests.get(root_url)

    soup = Soup(res.text,'html.parser')

    temp = soup.find_all("a")

    return temp

    ##从所有a标签中找到含有pdf的,然后下载

    def downPdf(root_url,list_a):

    number = 0

    ##如果网站url是以类似xx/index.php格式结尾,那么只取最后一个/之前的部分

    if not root_url.endswith("/"):

    index = root_url.rfind("/")

    root_url = root_url[:index+1]

    for name in list_a:

    name02 = name.get("href")

    ##筛选出以.pdf结尾的a标签

    if name02.lower().endswith(".pdf"):

    pdf_name = name.string

    number += 1

    print("Download the %d pdf immdiately!!!"%number,end=' ')

    print(pdf_name+'downing.....')

    ##因为要下载的是二进制流文件,将strem参数置为True

    response = requests.get(root_url+pdf_name,stream="TRUE")

    with open(pdf_name,'wb') as file:

    for data in response.iter_content():

    file.write(data)

    if __name__ == "__main__":

    downPdf(root_url,getTagA(root_url))

    二、亮点

    利用str.rfind("S") 函数来获得 S 在str 从右边数第一次出现的index

    使用str.lower().endswith("S") 函数来判断str 是否以S/s 结尾

    展开全文
  • [Asm] 纯文本查看 复制代码#追梦人物博客采集打印pdf# -*- coding: UTF-8 -*-from fake_useragent import UserAgentimport requestsfrom bs4 import BeautifulSoupimport reimport pdfkitconfg = pdfkit....
    {self.data}
    展开全文
  • 读取一个本地pdf文件,输出字符串# -*- coding: UTF-8 -*from urllib import urlopenfrom pdfminer.pdfinterp import PDFResourceManager, process_pdffrom pdfminer.converter import TextConverterfrom pdfminer....

    读取一个本地pdf文件,输出字符串

    # -*- coding: UTF-8 -*from urllib import urlopenfrom pdfminer.pdfinterp import PDFResourceManager, process_pdffrom pdfminer.converter import TextConverterfrom pdfminer.layout import LAParamsfrom io import StringIOfrom io import opendef readPDF(pdfFile): rsrcmgr = PDFResourceManager() retstr = StringIO() laparams = LAParams() device = TextConverter(rsrcmgr, retstr, laparams=laparams) process_pdf(rsrcmgr, device, pdfFile) device.close() content = retstr.getvalue() retstr.close() return contentpdfFile = open(u"/home/mypdf.pdf",”rd”) #本地

    print(pdfFile)outputString = readPDF(pdfFile)print(outputString)pdfFile.close()

    展开全文
  • 前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系...度娘搜了下,很多博客推荐Python的第三方库pdfkit,可以将网页、html文件以及字符串生成pdf文件。其...

    前言

    本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

    在用jupyter notebook写代码文档的时候,有时需要导出pdf版本,但jupyter会报错。我在想,除了网上的debug方法,还没有其他方案可以生成pdf。

    度娘搜了下,很多博客推荐Python的第三方库pdfkit,可以将网页、html文件以及字符串生成pdf文件。

    其实也有很多软件提供pdf生成服务,但这样太不python了,那下面就来试试pdfkit怎么用吧!

    三步实现自动生成pdf文档:使用pip安装pdfkit库

    python版本 3.x,在命令行输入:

    安装过程基本不会有啥问题,出现上面的Successfully installed pdfkit-0.6.1提示,说明安装成功了。安装wkhtmltopdf.exe文件

    注:pdfkit是基于wkhtmltopdf的python封装,所以需要安装wkhtmltopdf.exe。wkhtmltopdf是轻量级软件,非常很容易安装。

    下载地址:

    https://wkhtmltopdf.org/downloads.html

    下载wkhtmltopdf

    下载完成后,一路next,将wkhtmltopdf安装好。

    务必要记住安装地址,找到wkhtmltopdf.exe文件所在的绝对路径,后面要用到。

    我这里是默认路径""C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe""

    安装wkhtmltopdf使用pdfkit库生成pdf文件

    前面说过pdfkit可以将网页、html文件、字符串生成pdf文件。网页生成pdf【pdfkit.from_url()函数】

    html文件生成pdf【pdfkit.from_file()函数】

    字符串生成pdf【pdfkit.from_string()函数】

    结论

    本文讲了如何在Python中使用pdfkit库生成pdf文件,非常方便快捷,适合批量自动化操作。

    我们看看生成的pdf效果如何:

    pdf效果展示

    整体页面视觉不错呦,赶快用起来吧!

    成长离不开与优秀的伙伴共同学习,如果你需要好的学习环境,好的学习资源,项目教程,零基础学习,这里欢迎每一位热爱Python的小伙伴,点击:Python学习圈

    展开全文
  • 这篇文章主要介绍了Python实现抓取HTML网页并以PDF文件形式保存的方法,结合实例形式分析了PyPDF2模块的安装及Python抓取HTML页面并基于PyPDF2模块生成pdf文件的相关操作技巧,需要的朋友可以参考下本文实例讲述了...
  • 很多公众号提供功能,可以...Python如何将网站导出为PDF下面为你揭秘:从安装到应用,都一一详细的讲解到,如果你能跟着一起动手学习,相信也能开发出属于自己的一款强大PDF转化工具出来。现在隆重介绍,Python-PDF...
  • 背景介绍:在Python方面,我是一名不折不扣的菜鸟。在Linux方面,算是懂些皮毛。就这么一个知识水平,还搞懂了一件事情。说明什么呢?不是运气好,而是证明“ 学习,只要带着强烈的目标,终有收获。”用过三种wGet:...
  • 正好Python有相关的模块,所以写了个程序来进行PDF文件的下载,顺便熟悉了Python的urllib模块和ulrllib2模块。1、问题描述需要从http://www.cvpapers.com/cvpr2014.html上下载几百个论文的PDF文件,该网页如下图所示...
  • 主要为大家详细介绍了python爬取网页转换为PDF文件,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
  • python网页PDF

    2017-05-27 10:28:57
    下载wkhtmltopdf(wkhtmltox-0.12.4_msvc2015-win32.exe)并安装,下载地址:https://wkhtmltopdf.org/downloads.html(ps:注意选择跟python版本位数一致的下载) 2.利用pdfkit进行转换操作: import pdfk
  • In python code, how to efficiently save a certain page in a pdf as a jpeg file? (Use case: I've a python flask web server where pdf-s will be uploaded and jpeg-s corresponding to each page is stores.)...
  • 本文实例为大家分享了python爬取网页内容转换为PDF的具体代码,供大家参考,具体内容如下将廖雪峰的学习教程转换成PDF文件,代码只适合该网站,如果需要其他网站的教程,可靠需要进行稍微的修改。# coding=utf-8...
  • 本文实例为大家分享了python爬取网页内容转换为PDF的具体代码,供大家参考,具体内容如下将廖雪峰的学习教程转换成PDF文件,代码只适合该网站,如果需要其他网站的教程,可靠需要进行稍微的修改。# coding=utf-8...
  • 主要为大家详细介绍了python爬取网页内容转换为PDF文件,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
  • python网页pdf

    2020-05-29 22:56:23
    文章目录1、安装pdfkit2、安装wkhtmltopdf.exe3、配置环境变量3、代码区 1、安装pdfkit 我用的是pycharm直接...快速下载地址 3、配置环境变量 在系统变量的path中添加安装路径 3、代码区 import pdfkit pdf ...
  • python 下载 PDF

    2020-07-30 10:18:59
    from selenium import webdriver import time from selenium.webdriver import ActionChains # 鼠标右键操作模拟 ...def download_pdf(url): driver=webdriver.Chrome() driver.get(‘http://www.csrc.gov.cn/
  • Python爬取网页转为PDF

    2018-05-31 09:55:45
    爬虫的起因官方文档或... 全篇的实现思路分析网页学会使用BeautifulSoup库爬取并导出参考资料: * 把廖雪峰的教程转换为PDF电子书 * Requests文档 * Beautiful Soup文档配置在Ubuntu下使用Pycharm运行成功 ...
  • 度娘搜了下,很多博客推荐Python的第三方库pdfkit,可以将网页、html文件以及字符串生成pdf文件。其实也有很多软件提供pdf生成服务,但这样太不python了,那下面就来试试pdfkit怎么用吧!三步实现自动生成pdf...
  • python3爬虫下载网页上的pdf

    万次阅读 2017-11-25 11:43:13
    # 爬取大学nlp课程的教学pdf文档课件 http://ccl.pku.edu.cn/alcourse/nlp/ import urllib.request import re import os # open the url and read def getHtml(url): page = urllib.request.urlopen(url)
  • python批量下载pdf

    千次阅读 2018-11-16 10:38:21
    有规则的数据, 知道PDF地址,批量下载PDF # -*- coding: UTF-8 -*- import requests import os import sys reload(sys) sys.setdefaultencoding('utf8') dict = [['文件夹名1','PDF地址','PDF地址'], ['文件夹名...
  • 例如:你下载的数个PDF文件资料或者电子发票,你可以使用python程序合并成一个PDF文件,无论是阅读或是打印都更方便些。 2. 分析 首先,我们要读取某一个目录(为了简化,我们假设Python代码和PDF文件都放在此目录...
  • 基于Python网页数据爬虫设计分析.pdf
  • 基于Python网页信息爬取技术研究.pdf
  • 初次实践:python网页自动截图 步骤如下: (1) 安装python selenium 库,推荐使用pip快速安装最新版本 pip install selenium (2) 检查Chrome浏览器的版本,下载对应版本的chromedriver。 (3) 通过地址栏里...
  • 原标题:【免费分享】Python开发批量下载网页中环境监测标准(pdf)的源代码作为环保工作者或环保参与者,经常需要查看一些相关环境保护标准。尤其是环境监测领域,有大量的环境监测方法、规范等标准,这些标准是...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 16,237
精华内容 6,494
关键字:

python下载网页pdf

python 订阅