精华内容
下载资源
问答
  • 1 importurllib22 importcookielib3 importpdfkit45 cj =cookielib.LWPCookieJar()6 opener =urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))7 urllib2.install_opener(opener)8 url = ...

    1 importurllib22 importcookielib3 importpdfkit4

    5 cj =cookielib.LWPCookieJar()6 opener =urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))7 urllib2.install_opener(opener)8 url = "https://www.taobao.com/"

    9 req =urllib2.Request(url)10 '''保存html到本地'''

    11 operate =opener.open(req)12 msg =operate.read()13 document = 'D://1.html'

    14 file_ = open(document,'w')15 file_.write(msg)16 file_.close()17

    18 path_wk = r'C:\Python27\wkhtmltopdf\bin\wkhtmltopdf.exe'

    19 config = pdfkit.configuration(wkhtmltopdf =path_wk)20

    21 '''保存pdf到本地'''

    22 pdfkit.from_url(url, r'D:\are you coding\pdf\taobao.pdf', configuration=config)

    展开全文
  • 使用Google浏览器的打印命令时,保存下来的pdf文件中包含网页中的所有内容(左右边框和广告等),想仅把当前网页中的主体内容转成pdf格式的文件保存下来。操作说明:填写URL及提取条件(浏览器中按F12,查找),预览...

    124833dmxziycdqtsyxcdc.jpg使用Google浏览器的打印命令时,保存下来的pdf文件中包含网页中的所有内容(左右边框和广告等),想仅把当前网页中的主体内容转成pdf格式的文件保存下来。

    操作说明:

    填写URL及提取条件(浏览器中按F12,查找),预览,打印。

    124833jfl08dl2z2jf4dsr.jpgpython代码说明:

    默认可不输入提取条件,对于没有下载过的网站,会出现提示;对于已下载过的网站,有保存记录,自动关联当前网站的提取条件。

    124833x1htm3rj3fh13cj3.jpg

    124834vcmmgrszxdtqrqcz.jpgpython代码如下:

    import win32api

    import win32con

    import requests

    from bs4 import BeautifulSoup

    import webbrowser

    import tkinter

    from tkinter import filedialog

    import pdfkit

    # 预览

    def take_body():

    global url

    global body_class

    global headers

    url = var_url.get()

    body_class = var_body.get()

    # 请求URL

    headers = {

    "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",

    "Accept-Encoding":"gzip, deflate, br",

    "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36"

    }

    r = requests.get(url,headers = headers)

    soup = BeautifulSoup(r.content,"html.parser")

    # 提取标题

    global title

    title = soup.title.text

    # 判断该网站是否已下载转换过

    f = open("temp.txt","r")

    a = f.read()

    dict = eval(a)

    f.close()

    if url.split("/")[2] in dict:

    body_class = dict[url.split("/")[2]]

    elif body_class == "":

    win32api.MessageBox(0, "未从在该网站下载过文档,添加提取条件", "提示", win32con.MB_OK)

    # 提取正文

    if body_class != "":

    body = soup.find_all(class_= body_class)[0]

    # 对提取的内容,调用浏览器进行预览

    html_test = str(body)

    with open("html_test.html","wb")as f:

    f.write(html_test.encode("utf-8"))

    webbrowser.open("E:PythonHtmlToPdfHtmlToPdf_V0.7html_test.html",new=0,autoraise=True)

    # html转pdf

    def htmltopdf():

    file_name = title + ".pdf"

    types = [("pdf文件", "*.pdf")]

    dest_dir = filedialog.asksaveasfilename(initialfile = file_name,filetypes = types)

    options = {"encoding": "utf-8"}

    pdfkit.from_file("html_test.html", dest_dir, options=options)

    dict = {}

    f = open("temp.txt","r")

    a = f.read()

    dict = eval(a)

    f.close()

    dict[url.split("/")[2]] = body_class

    f = open("temp.txt","w")

    f.write(str(dict))

    f.close()

    # 创建窗口

    root = tkinter.Tk()

    root.title("HtmlToPdf")

    root.geometry("300x200")

    var_url = tkinter.StringVar()

    var_body = tkinter.StringVar()

    label_1 = tkinter.Label(root,text = "URL:").place(x=10,y=10)

    text_1 = tkinter.Entry(root,textvariable = var_url).place(x=100,y=10)

    label_2 = tkinter.Label(root,text = "输入提取条件:").place(x=10,y=55)

    text_2 = tkinter.Entry(root,show = None,textvariable = var_body).place(x=100,y=55)

    button_2 = tkinter.Button(root,text = "预览",command = take_body).place(x=250,y=50)

    label_3 = tkinter.Label(root,text = "是否打印:").place(x=10,y=100)

    button_3 = tkinter.Button(root,text = "是",command = htmltopdf).place(x=100,y=95)

    button_3 = tkinter.Button(root,text = "否",command = root.quit).place(x=130,y=95)

    root.mainloop()

    本文仅代表作者个人观点,不代表SEO研究协会网官方发声,对观点有疑义请先联系作者本人进行修改,若内容非法请联系平台管理员。更多相关资讯,请到SEO研究协会网www.seoxiehui.cn学习互联网营销技术请到巨推学院www.jutuiedu.com。

    展开全文
  • 我们看到一些比较写的比较好文章或者博客的时候,想保存下来到本地当一个pdf文件,当做自己的知识储备,以后即使这个博客或者文章的连接不存在了,或者被删掉,咱们自己也还有。当然咱们作为一个coder,这样的事情...

    我们看到一些比较写的比较好文章或者博客的时候,想保存下来到本地当一个pdf文件,当做自己的知识储备,以后即使这个博客或者文章的连接不存在了,或者被删掉,咱们自己也还有。

    当然咱们作为一个coder,这样的事情肯定不能手动保存下来然后再转成pdf存起来对不对,有失咱们码农的身份,当然要自动化的来实现了~

    准备工作

    那怎么办呢,python里面有个模块是pdfkit,他可以帮咱们把一个html(也就是一个网页)变成一个pdf文件。

    pdfkit是python对wkhtmltopdf这个把网页转成pdf工具的一个封装,所以咱们必须得先安装一个wkhtmltopdf,这个工具的下载网站是:https://wkhtmltopdf.org/downloads.html,根据自己的操作系统下载对应的版本即可。ps:这里要记住安装目录啊,下面要用到它,不要忘记它的安装目录~

    上面说到了pdfkit这个模块,这个是第三方模块,需要安装,使用pip安装即可。

    pip install pdfkit

    写代码实现

    pdfkit它给咱们提供了很多功能,可以给它一个 url,他会自动获取 url 里面的内容,帮你保存好,也可以给他一个 html 文件,也可以保存,也可以给他一个字符串,也可以保存成 pdf,下面是代码:

    importpdfkit

    url='https://www.cnblogs.com/sriba/p/8043294.html'#一篇博客的url

    confg = pdfkit.configuration(wkhtmltopdf='C:\Python35\wkhtmltopdf.exe')#这里指定一下wkhtmltopdf的路径,这就是我为啥在前面让记住这个路径

    pdfkit.from_url(url, 'jmeter_下载文件.pdf',configuration=confg)#from_url这个函数是从url里面获取内容#这有3个参数,第一个是url,第二个是文件名,第三个就是khtmltopdf的路径

    #pdfkit.from_file('my.html', 'jmeter_下载文件2.pdf',configuration=confg)#from_file这个函数是从文件里面获取内容#这有3个参数,第一个是一个html文件,第二个是文生成的pdf的名字,第三个就是khtmltopdf的路径

    html='''

    title

    content

    '''#这个html是我从一个页面上拷下来的一段,也可以

    #pdfkit.from_string(html, 'jmeter_下载文件3.pdf',configuration=confg)#from_file这个函数是从一个字符串里面获取内容#这有3个参数,第一个是一个字符串,第二个是文生成的pdf的名字,第三个就是khtmltopdf的路径

    下面是保存好的pdf文件,是不是很简单,快去试试吧

    c857764843e4cd05e401d39bac75be5c.png

    展开全文
  • 好不容易找到一个网站可以在线看,但只能单页保存,GF帮忙点了好久才下了几十页。于是就想试着写个脚本批量下载。一个高手看起来巨简单的的程序,我在官网上看了N久的库文献加上N多google代码片段,断断续续写了3天...

    前几天找本很老的书,纸质书只有图书馆有,电子版要么上淘宝买要么到论坛上灌水刷金币买。好不容易找到一个网站可以在线看,但只能单页保存,GF帮忙点了好久才下了几十页。于是就想试着写个脚本批量下载。

    一个高手看起来巨简单的的程序,我在官网上看了N久的库文献加上N多google代码片段,断断续续写了3天才出来,不过总算稍微入点门了⋯⋯

    代码如下,看那一堆注释就知道每一步我都要调试几遍才能过去。最后组合单页pdf,去水印本来也想直接完成的,但mac终端下没有现成的程序,准备手动用Acrobat完成了。

    因为我没有看几页《A byte of Python》就开始写了,只是想完成需求就好了,所以写得肯定有好多不正规的地方。请大家帮忙指点一下,哪些地方可以改进或是写得更正规一点?

    谢谢啦!

    #下载西山电子书

    import urllib.request

    import re

    import os

    #循环 次数=书页数

    for i in range(1, 231):

    #get pdf所在网页

    fileHandle = urllib.request.urlopen('http://www.bjmem.com/bjm/bjwh/include/showpdf.jsp?bookId=5259&xuhao=' + str(i) + '&pdfuri=/bjm/bjwh/zrdl/200711/')

    #打开网页文件搜索SRC一行,读取pdf网址

    pagesrc = str(fileHandle.read(), 'utf-8')

    fileHandle.close()

    # print (pagesrc)

    posbegin = re.search('PARAM NAME="SRC" VALUE=', pagesrc)

    # print (posbegin.end())

    #original = re.compile(pagesrc)

    #print (original)

    posend = re.search('.pdf', pagesrc)

    # print (posend.end())

    # print (pagesrc[posbegin.end():posend.end()])

    pdfaddress = 'http://www.bjmem.com/' + pagesrc[posbegin.end():posend.end()]

    # print (pdfaddress)

    #wget下载pdf,并按页码命名

    cmd = 'wget -c ' + pdfaddress + ' -O bjxs' + str(i) + '.pdf'

    os.system (cmd)

    #print (url)

    #用工具组合pdf为一个文件

    展开全文
  • os.path.abspath(__file__).rsplit("\\", 1)[0] # 你自己填入url url = "https://xxx" output_path = os.path.join(cur_file_dir, 'csdn.pdf') pdfkit.from_url(url, output_path) 运行,然后就可以顺利打印啦!...
  • 'savefile.default_directory': r'C:\Users\Administrator\Desktop\新建文件夹' #此处填写你希望文件保存的路径 } chrome_options.add_argument('--kiosk-printing') #静默打印,无需用户点击打印页面的确定按钮 ...
  • python操作图片批量保存PDF文件

    千次阅读 2021-03-17 17:23:25
    就是把一个一个图片获取下来,并把图片拼接成一个PDF文档。 代码如下: #-*-coding:utf-8-*- """ CreatedonMonMar809:50:582021 @author:zm """ importrequests fromfpdfimportFPDF fromPILimportImage importos ...
  • 通过pdf2image来实现对PDF文件的处理工作,我们本次主要做的是将PDF文件批量转成图片。之前写过批量提取封面的文章,但是在后期的深入编写过程中遇到一些问题,近期再次深入编写程序,一起来看看代码吧!python一、...
  • 点击上方web项目开发,选择设星标优质文章,及时送达效果图前端初始页面上传doc,docx,xls,xlsx,ppt,pptx,txt成功页面文件在线预览页面环境介绍JDK:1.8数据库:Mysql5.6前端:Vue后端:SpringBoot完整源码...
  • 批量导出pdf 和导出图片

    千次阅读 2019-09-19 16:25:41
    1. 基于已经制作好的pdf和上传到服务器上后,前端只需要传递pdf链接 ... * 批量导出pdf * @access public * @param id 分类编号 cat_name分类名称 * @return array */ public function actionExportpdf(){ ...
  • 批量拆分pdf脚本

    2021-09-03 12:31:06
    利用在线的pdf拆分网站,进行上传文件和下载操作 难点 如何进行文件上传操作 效果 网站似乎有反爬机制,爬取速度很慢很慢 from selenium import webdriver from time import sleep from lxml import etree ...
  • 批量html转word 或者 pdf

    2019-09-25 13:59:07
    String pdf="D:\\meadinPdf\\"+name+".pdf"; // docToPdf(docFile,pdf); }catch (Exception e){ e.printStackTrace(); } } return report; } public String getHtml(String title,String mets,String text...
  • 因此,本文提出万兴PDF这款出色的解决工具,该程序可以解决当下的热门问题——如何将PDF文档转换为URL。将PDF转换为URL的3个步骤步骤1.打开万兴PDF打开将PDF文档转换为URL的转换器——万兴PDF后,单击主页选项卡上的...
  • 原标题:使用Python批量下载Wind数据库中的PDF报告背景最近小编出于工作需要,准备在Wind金融数据终端批量下载上市公司2019年第一季度业绩预告。通过相关的条件检索,发现其相关数据有近百条。由于Wind金融数据终端...
  • 一键保存网页为PDF

    千次阅读 2014-02-08 13:38:20
    福利来了,“一键保存网页为PDF”发布以来最给力的功能来了: 1、支持大部分浏览器了(添加书签方式),测试IE8\IE9、谷歌、火狐可用; 2、转换组件“ephtmltopdf”无水印了,不用注册账号,没有转换数量...
  • 批量下载网站上的PDF文件

    千次阅读 2019-12-28 01:40:44
    ##加载需要的包 import requests,bs4 from bs4 import BeautifulSoup import time, random ##用于伪装访问 from fake_useragent import UserAgent ...url_ori = 'http://www.gwcapital.com.cn' ##设置heade...
  • PDF文件批量下载爬虫

    千次阅读 2018-02-26 16:01:05
    参考文章在这儿Python3爬虫下载pdf(二)https://segmentfault.com/a/1190000010823538这个爬虫是下载智能车官网的技术报告的# _*_ coding:utf-8_*_ # auther :nsy12 # date :2018/2/25 # time :11:20 import ...
  • 使用Google浏览器的打印命令时,保存下来的pdf文件中包含网页中的所有内容(左右边框和广告等),想仅把当前网页中的主体内容转成pdf格式的文件保存下来。操作说明:填写URL及提取条件(浏览器中按F12,查找),预览...
  • 用python爬虫批量下载pdf

    万次阅读 多人点赞 2017-07-26 18:09:17
    今天老板给了一个excel文件,里面有500多个pdf文件的下载链接。 解决方法:用python爬虫批量下载
  • 因为公司的一些业务需求,我需要批量的将所有的xls文件转化为pdf文件,如果一个个的点击,借助于adobe,那么无疑会需要很长的时间;相信这样子的业务需要肯定有市场的,这也意味着肯定存在这样子的软件。 网上...
  • 有人通过云盘映射分享了一批非扫描PDF文档http://pan.win10sys.com/电子书/Books(White%20prostitute),激发了我的“仓鼠”属性——我要保存到自己手里。但是这种分享不支持批量下载,一个一个下载也太low了,要不...
  • 好不容易找到一个网站可以在线看,但只能单页保存,GF帮忙点了好久才下了几十页。于是就想试着写个脚本批量下载。一个高手看起来巨简单的的程序,我在官网上看了N久的库文献加上N多google代码片段,断断续续写了3天...
  • 一.下载 直接百度到官网下载 二.安装 安装后,将到bin的目录配置到环境变量 三....import pdfkit path_wk = r'D:\wkhtmltopdf\bin\wkhtmltopdf.exe' config = pdfkit....pdfkit.from_url(url, output_path=outname
  • 已知文件url格式 ...… 通过python使用wget实现批量下载文件: 1.安装wget pip install wget 2.批量下载 import wget number=1 while number<... path = 'D:\批量下载' # 保存地址 wget.downloa
  • Python抓取网页并保存为PDF

    万次阅读 2017-03-31 14:00:37
    抓取HTML文档,转化成PDF文档
  • 背景:突然有大量的文件需要导出成PDF文件,写一个批量导出pdf的脚本,同时文件的命名也需要有一定的规则 导出方式:向服务器中上传csv文件,csv文件中包含文件的地址和相对应的文件命名。 如下格式:(地址是已经...
  • 作为一个业余爱好者,一直在CSDN...细看这次提供的教材挺多的,就想收集一下备用,但是一个个的下载实在太麻烦了,于是想起来利用Python应该能实现批量下载的。于是乎动手操作,先查资料。下载地址:https://bp.pep...
  • 用Java批量下载PDF

    千次阅读 2013-01-20 22:16:17
    最近学习时常常看到参考书上提到各种RFC,每次下载实在有些麻烦,正好在学习相关内容,于是就写了个程序将官网上六千多个pdf文档下载下来。在这里跟大家分享。 整体思路: 首先从RFC列表的页面

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,566
精华内容 2,226
关键字:

批量保存url为pdf