精华内容
下载资源
问答
  • Python3爬虫下载pdf(一)最近在学习python的爬虫,并且玩的不亦说乎,因此写个博客,记录并分享一下。需下载以下模块bs4 模块requests 模块一、源码"""功能:下载指定url内的所有的pdf语法:将含有pdf的url放到脚本...

    Python3爬虫下载pdf(一)

    最近在学习python的爬虫,并且玩的不亦说乎,因此写个博客,记录并分享一下。

    需下载以下模块

    bs4 模块

    requests 模块

    一、源码

    """

    功能:下载指定url内的所有的pdf

    语法:将含有pdf的url放到脚本后面执行就可以了

    """

    from bs4 import BeautifulSoup as Soup

    import requests

    from sys import argv

    try:

    ##用于获取命令行参数,argv[0]是脚本的名称

    root_url = argv[1]

    except:

    print("please input url behind the script!!")

    exit()

    ##获得含有所有a标签的一个列表

    def getTagA(root_url):

    res = requests.get(root_url)

    soup = Soup(res.text,'html.parser')

    temp = soup.find_all("a")

    return temp

    ##从所有a标签中找到含有pdf的,然后下载

    def downPdf(root_url,list_a):

    number = 0

    ##如果网站url是以类似xx/index.php格式结尾,那么只取最后一个/之前的部分

    if not root_url.endswith("/"):

    index = root_url.rfind("/")

    root_url = root_url[:index+1]

    for name in list_a:

    name02 = name.get("href")

    ##筛选出以.pdf结尾的a标签

    if name02.lower().endswith(".pdf"):

    pdf_name = name.string

    number += 1

    print("Download the %d pdf immdiately!!!"%number,end=' ')

    print(pdf_name+'downing.....')

    ##因为要下载的是二进制流文件,将strem参数置为True

    response = requests.get(root_url+pdf_name,stream="TRUE")

    with open(pdf_name,'wb') as file:

    for data in response.iter_content():

    file.write(data)

    if __name__ == "__main__":

    downPdf(root_url,getTagA(root_url))

    二、亮点

    利用str.rfind("S") 函数来获得 S 在str 从右边数第一次出现的index

    使用str.lower().endswith("S") 函数来判断str 是否以S/s 结尾

    展开全文
  • 读取一个本地pdf文件,输出字符串# -*- coding: UTF-8 -*from urllib import urlopenfrom pdfminer.pdfinterp import PDFResourceManager, process_pdffrom pdfminer.converter import TextConverterfrom pdfminer....

    读取一个本地pdf文件,输出字符串

    # -*- coding: UTF-8 -*from urllib import urlopenfrom pdfminer.pdfinterp import PDFResourceManager, process_pdffrom pdfminer.converter import TextConverterfrom pdfminer.layout import LAParamsfrom io import StringIOfrom io import opendef readPDF(pdfFile): rsrcmgr = PDFResourceManager() retstr = StringIO() laparams = LAParams() device = TextConverter(rsrcmgr, retstr, laparams=laparams) process_pdf(rsrcmgr, device, pdfFile) device.close() content = retstr.getvalue() retstr.close() return contentpdfFile = open(u"/home/mypdf.pdf",”rd”) #本地

    print(pdfFile)outputString = readPDF(pdfFile)print(outputString)pdfFile.close()

    展开全文
  • 使用Selenium和特定的ChromeProfile,您可以使用以下代码下载嵌入式pdf:码:def download_pdf(lnk):from selenium import webdriverfrom time import sleepoptions = webdriver.ChromeOptions()download_folder = "C...

    使用Selenium和特定的ChromeProfile,您可以使用以下代码下载嵌入式pdf:

    码:

    def download_pdf(lnk):

    from selenium import webdriver

    from time import sleep

    options = webdriver.ChromeOptions()

    download_folder = "C:\"

    profile = {"plugins.plugins_list": [{"enabled": False,

    "name": "Chrome PDF Viewer"}],

    "download.default_directory": download_folder,

    "download.extensions_to_open": ""}

    options.add_experimental_option("prefs", profile)

    print("Downloading file from link: {}".format(lnk))

    driver = webdriver.Chrome(chrome_options = options)

    driver.get(lnk)

    filename = lnk.split("/")[4].split(".cfm")[0]

    print("File: {}".format(filename))

    print("Status: Download Complete.")

    print("Folder: {}".format(download_folder))

    driver.close()

    当我调用这个函数时:

    download_pdf("http://www.equibase.com/premium/eqbPDFChartPlus.cfm?RACE=1&BorP=P&TID=ALB&CTRY=USA&DT=06/17/2002&DAY=D&STYLE=EQB")

    那是输出:

    >>> Downloading file from link: http://www.equibase.com/premium/eqbPDFChartPlus.cfm?RACE=1&BorP=P&TID=ALB&CTRY=USA&DT=06/17/2002&DAY=D&STYLE=EQB

    >>> File: eqbPDFChartPlus

    >>> Status: Download Complete.

    >>> Folder: C:\n

    fhz3p.png

    看看具体的个人资料:

    profile = {"plugins.plugins_list": [{"enabled": False,

    "name": "Chrome PDF Viewer"}],

    "download.default_directory": download_folder,

    "download.extensions_to_open": ""}

    它会禁用Chrome PDF Viewer插件(将pdf嵌入网页),将默认下载文件夹设置为download_folder变量中定义的文件夹,并设置Chrome不允许自动打开任何扩展程序.

    之后,当您打开所谓的“内部链接”时,您的webdriver将自动将.pdf文件下载到download_folder.

    展开全文
  • I have this link:I want to download the embedded PDF.I have tried the normal methods of urllib and request but they're not working.import urllib2url = ...

    1586010002-jmsa.png

    I have this link:

    I want to download the embedded PDF.

    I have tried the normal methods of urllib and request but they're not working.

    import urllib2

    url = "http://www.equibase.com/premium/chartEmb.cfm?track=ALB&raceDate=06/17/2002&cy=USA&rn=1"

    response = urllib2.urlopen(url)

    file = open("document.pdf", 'wb')

    file.write(response.read())

    file.close()

    Moreover, I have also tried to find the original link of the pdf but it also did not work.

    Internal link:

    解决方案

    Using Selenium with a specific ChromeProfile you can download embedded pdfs using the following code:

    Code:

    def download_pdf(lnk):

    from selenium import webdriver

    from time import sleep

    options = webdriver.ChromeOptions()

    download_folder = "C:\\"

    profile = {"plugins.plugins_list": [{"enabled": False,

    "name": "Chrome PDF Viewer"}],

    "download.default_directory": download_folder,

    "download.extensions_to_open": ""}

    options.add_experimental_option("prefs", profile)

    print("Downloading file from link: {}".format(lnk))

    driver = webdriver.Chrome(chrome_options = options)

    driver.get(lnk)

    filename = lnk.split("/")[4].split(".cfm")[0]

    print("File: {}".format(filename))

    print("Status: Download Complete.")

    print("Folder: {}".format(download_folder))

    driver.close()

    And when I call this function:

    download_pdf("http://www.equibase.com/premium/eqbPDFChartPlus.cfm?RACE=1&BorP=P&TID=ALB&CTRY=USA&DT=06/17/2002&DAY=D&STYLE=EQB")

    Thats the output:

    >>> Downloading file from link: http://www.equibase.com/premium/eqbPDFChartPlus.cfm?RACE=1&BorP=P&TID=ALB&CTRY=USA&DT=06/17/2002&DAY=D&STYLE=EQB

    >>> File: eqbPDFChartPlus

    >>> Status: Download Complete.

    >>> Folder: C:\

    fhz3p.png

    Take a look at the specific profile:

    profile = {"plugins.plugins_list": [{"enabled": False,

    "name": "Chrome PDF Viewer"}],

    "download.default_directory": download_folder,

    "download.extensions_to_open": ""}

    It disables the Chrome PDF Viewer plugin (that embedds the pdf at the webpage), set the default download folder to the folder defined at download_folder variable and sets that Chrome isn't allowed to open any extensions automatically.

    After that, when you open the so called "Internal link" your webdriver will automatically download the .pdf file to the download_folder.

    展开全文
  • 这篇文章主要介绍了Python实现抓取HTML网页并以PDF文件形式保存的方法,结合实例形式分析了PyPDF2模块的安装及Python抓取HTML页面并基于PyPDF2模块生成pdf文件的相关操作技巧,需要的朋友可以参考下本文实例讲述了...
  • 很多公众号提供功能,可以...Python如何将网站导出为PDF下面为你揭秘:从安装到应用,都一一详细的讲解到,如果你能跟着一起动手学习,相信也能开发出属于自己的一款强大PDF转化工具出来。现在隆重介绍,Python-PDF...
  • [Asm] 纯文本查看 复制代码#追梦人物博客采集打印pdf# -*- coding: UTF-8 -*-from fake_useragent import UserAgentimport requestsfrom bs4 import BeautifulSoupimport reimport pdfkitconfg = pdfkit....
  • 在日常工作或学习上,经常要搜集一些教程,有时要的是单个资料,有时想获取的是整个科目的学习资源,在找到这些想要的资源后,发现有的教程是在线的,不提供离线版本,或者是提供下载,但是不是你熟悉的PDF文件,...
  • 前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系...度娘搜了下,很多博客推荐Python的第三方库pdfkit,可以将网页、html文件以及字符串生成pdf文件。其...
  • 正好Python有相关的模块,所以写了个程序来进行PDF文件下载,顺便熟悉了Python的urllib模块和ulrllib2模块。1、问题描述需要从http://www.cvpapers.com/cvpr2014.html上下载几百个论文的PDF文件,该网页如下图所示...
  • 背景介绍:在Python方面,我是一名不折不扣的菜鸟。在Linux方面,算是懂些皮毛。就这么一个知识水平,还搞懂了一件事情。说明什么呢?不是运气好,而是证明“ 学习,只要带着强烈的目标,终有收获。”用过三种wGet:...
  • 通过python爬虫批量下载PDF文件,当前代码使用下载人教版学生教材举例; 其中涉及到批量下载、文件重命名、正则表达式等具体应用
  • 例如:你下载的数个PDF文件资料或者电子发票,你可以使用python程序合并成一个PDF文件,无论是阅读或是打印都更方便些。 2. 分析 首先,我们要读取某一个目录(为了简化,我们假设Python代码和PDF文件都放在此目录...
  • 主要为大家详细介绍了python爬取网页转换为PDF文件,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
  • Python和selenium下载pdf文件

    千次阅读 2018-04-17 17:20:27
    今天要从国外的网站下载一个学术会议的几百篇pdf文献,具体网址为...于是用Python+selenium写了个小程序,自动下载保存这些pdf文件。开始在Firefox浏览器试验,试了好多次都没有成功。Fir...
  • 本篇文章给大家带来的内容是关于Python如何实现从PDF文件中爬取表格数据(代码示例),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。本文将展示一个稍微不一样点的爬虫。以往我们的爬虫都是从...
  • 可以抓取网页中pdf文档
  • 本篇文章给大家带来的内容是关于Python如何实现从PDF文件中爬取表格数据(代码示例),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。本文将展示一个稍微不一样点的爬虫。以往我们的爬虫都是从...
  • 最近在使用python3的requests库下载PDF文件时出现了一个小问题: 我需要下载的其中一个PDF文件的url为https://www.aclweb.org/anthology/A00-2017 使用requests库下载的关键代码为: file_name = url.split('/'...
  • 其实python经过适当的配置,输出中文pdf文件的效果也是极好的。输出pdf格式比excel文件更容易分发,也比直接网页打印精美。(完整的演示代码下载方法在本文末尾)但是,直接使用python输出pdf往往中文是乱码,并且参考...
  • 主要为大家详细介绍了python爬取网页内容转换为PDF文件,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
  • 广告关闭腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起... 读取pdf文件import sysimport importlibimportlib.reload(sys) frompdfminer.pdfparser import pdfparser,pdfdocumentfrom pdfminer.pd...
  • 今天的例子以廖雪峰老师的Python教程网站为例:http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000 二、准备工作 1. PyPDF2的安装使用(用来合并PDF): PyPDF2版本:1.25.1 ...
  • 全篇的实现思路分析网页学会使用BeautifulSoup库爬取并导出参考资料:配置在Ubuntu下使用Pycharm运行成功转PDF需要下载wkhtmltopdf具体过程网页分析如下所示的一个网页,要做的是获取该网页的正文和标题,...
  • 本文实例为大家分享了python爬取网页内容转换为PDF的具体代码,供大家参考,具体内容如下将廖雪峰的学习教程转换成PDF文件,代码只适合该网站,如果需要其他网站的教程,可靠需要进行稍微的修改。# coding=utf-8...
  • 功能需求: 将PDF文件压缩成ZIP文件/流下载。 1.Python python工具包 zipfile 官方文档:https://docs.python.org/zh-cn/3/library/zipfile.html 代码 import os import zipfile import io # 获取运行路径 ...
  • 我们看到一些比较写的比较好文章或者博客的时候,想保存下来到本地当一个pdf文件,当做自己的知识储备,以后即使这个博客或者文章的连接不存在了,或者被删掉,咱们自己也还有。当然咱们作为一个coder,这样的事情...
  • python怎么抓取文件Last semester when most of my courses had their own web pages, I had to download each lecture and homework PDF individually. Downloading hundreds of PDF files manually was…tiresome....

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 24,027
精华内容 9,610
关键字:

python下载网页中的pdf文件

python 订阅