精华内容
下载资源
问答
  • 主要介绍了python中urllib.request和requests的使用及区别详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
  • 1.urllib.request 请求模块 2. urllib.error 异常处理模块 3. urllib.parse url 解析模块 4. urllib.robotparser robots.txt 解析模块 Urllib 库下的几种模块基本使用如下: urllib.request 关于 urlli
  • urllib.request.urlopen详解

    2021-08-06 23:29:39
    Urllib是python内置的HTTP请求库: urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse url解析模块 urllib.robotparser robots.txt解析...urllib.request.urlopen(url, data=None, [timeout, ]*, caf

    视频链接https://www.bilibili.com/video/BV1Us41177P1?p=2

    requests.get详解见:https://blog.csdn.net/qq_41845823/article/details/119516178

    requests.get和urlopen的比较:https://blog.csdn.net/qq_41845823/article/details/119517519

    以下为urllib.request.urlopen部分

    Urllib是python内置的HTTP请求库:

    • urllib.request 请求模块
    • urllib.error 异常处理模块
    • urllib.parse url解析模块
    • urllib.robotparser robots.txt解析模块

    在这里插入图片描述

    python2urllib2库中的很多方法在python3中被移至urllib.request库中。

    urllib.request.urlopen

    urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

    # get 类型请求
    # 不加decode 返回json格式
    import urllib.request
    
    response = urllib.request.urlopen('http://www.baidu.com')
    print(response.read().decode('utf-8'))
    
    # post 类型请求 需要添加属性data post请求用来上传或者修改服务器数据的 
    # post和个体区别见  https://segmentfault.com/a/1190000018129846
    # 'http://httpbin.org/post' 网站可以用来测试http请求响应
    import urllib.request
    import urllib.parse
    
    data = bytes(urllib.parse.urlencode({'word':'hollow'}), encoding='utf8')
    response = urllib.request.urlopen('http://httpbin.org/post', data=data)
    print(response.read().decode('utf-8'))
    
    # timeout 属性 设置响应时长  
    import urllib.request
    import urllib.error
    import socket
    
    try:
        response = urllib.request.urlopen('http://httpbin.org/get', timeout=0.1)
        print(response.read().decode('utf-8'))
    except urllib.error.URLError as e:
        if isinstance(e.reason, socket.timeout):
            print('TIME OUT')
    

    响应

    #  响应类型
    import urllib.request
    
    response = urllib.request.urlopen('http://httpbin.org')
    print(type(response))
    
    # 输出:<class 'http.client.HTTPResponse'>
    
    # 根据响应的属性 status和getheaders获得响应状态码和响应头部
    import urllib.request
    
    response = urllib.request.urlopen('http://httpbin.org')
    print(response.status)
    print(response.getheaders())
    print(response.getheader('Date'))
    

    Request

    通过urlopen参数直接是url地址可以构造简单的请求,但是有时候需要进行很精准的请求,比如加上header的User-Agent、host等信息,这个时候就需要构造request请求

    # 利用 urllib.request.Request 制作request请求,再把该请求作为 urllib.request.urlopen 的参数请求响应
    import urllib.request
    
    request = urllib.request.Request('http://httpbin.org')
    response = urllib.request.urlopen(request)
    print(response.read().decode('utf-8'))
    
    # 利用 urllib.request.Request 制作request请求的 post请求
    import urllib.request
    import urllib.parse
    
    url = 'http://httpbin.org/post'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36',
        'Host': 'httpbin.org'
    }
    dict = {
        'name': 'Germey'
    }
    data = bytes(urllib.parse.urlencode(dict), encoding='utf8')
    request =  urllib.request.Request(url=url, data=data, headers=headers, method='POST')
    response = urllib.request.urlopen(request)
    print(response.read().decode('utf-8'))
    

    request对象提供了一个add_header方法,直接添加请求头部信息:

    # 若有多个键值对需要用for循环添加
    import urllib.request
    import urllib.parse
    
    url = 'http://httpbin.org/post'
    
    dict = {
        'name': 'Germey'
    }
    data = bytes(urllib.parse.urlencode(dict), encoding='utf8')
    request =  urllib.request.Request(url=url, data=data,  method='POST')
    request.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36')
    response = urllib.request.urlopen(request)
    print(response.read().decode('utf-8'))
    

    以上是基本的爬虫的构造,可以完成大部分爬取工作,以下是高级设置

    Handler

    urllib.request官方文档 https://docs.python.org/3/library/urllib.request.html 给出很多Handler的方法

    代理

    当我们爬取一个网站的时候,有时候需要重复访问多次,此时该网站可能会捕获你的访问次数,当检测到访问次数异常时会禁止你的ip访问,这个时候我们需要设置代理进行访问该网站,在爬虫运行过程中不断切换代理

    import urllib.request
    
    proxy_handler = urllib.request.ProxyHandler({
        'http': 'http://127.0.0.1:9743',
        'https': 'https://127.0.0.1:9743'
    })
    # 使用urllib.request.build_opener把proxy_handler里的地址、端口转换成代理
    opener = urllib.request.build_opener(proxy_handler)
    # 产生的opener之久就可以访问网站
    reponse = opener.open('http://httpbin.org/post')
    print(reponse.read())
    

    在这里插入图片描述

    cookie

    cookie是用来维持登陆状态的信息,存储在本地文件中,网站根据cookie值来决定是否是登陆状态,若把cookie都清除掉,则网站就退出登陆了

    以下是百度的 cookie信息

    在这里插入图片描述

    # 和代理类似,这里把cookie制作成opener
    import http.cookiejar, urllib.request
    
    # 产生一个<class 'http.cookiejar.CookieJar'>对象
    cookie = http.cookiejar.CookieJar()
    # 将cookie制作成<class 'urllib.request.HTTPCookieProcessor'>对象
    handler = urllib.request.HTTPCookieProcessor(cookie)
    # 产生<class 'urllib.request.OpenerDirector'>对象
    opener = urllib.request.build_opener(handler)
    reponse = opener.open('http://www.baidu.com')
    for item in cookie:
        print(item.name + '=' + item.value)
    

    可以把cookie保存成文件,在下次访问的时候如果该cookies还没失效,则可以维持登陆状态

    import http.cookiejar, urllib.request
    
    filename = "cookie.txt"
    # 这里是生成 mozilla 格式的cookie文本
    cookie = http.cookiejar.MozillaCookieJar(filename)
    handler = urllib.request.HTTPCookieProcessor(cookie)
    opener = urllib.request.build_opener(handler)
    reponse = opener.open('http://www.baidu.com')
    cookie.save(ignore_discard='True', ignore_expires='True')
    
    import http.cookiejar, urllib.request
    
    filename = 'cookie.txt'
    # 这里是生成 LWP 格式的cookie文本
    cookie = http.cookiejar.LWPCookieJar(filename)
    handler = urllib.request.HTTPCookieProcessor(cookie)
    opener = urllib.request.build_opener(handler)
    response = opener.open('http://www.baidu.com')
    cookie.save(ignore_discard=True, ignore_expires=True)
    

    接下来读取该文件,并加载cookie进行请求,文本是什么格式,就以哪种方法加载

    import http.cookiejar, urllib.request
    
    cookie = http.cookiejar.LWPCookieJar()
    cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)
    handler = urllib.request.HTTPCookieProcessor(cookie)
    opener = urllib.request.build_opener(handler)
    response = opener.open('http://www.baidu.com')
    print(response.read().decode('utf-8'))
    
    展开全文
  • urllib.request.Request2. urllib.request.urlopen3. urllib.request.urlopen和urllib.request.Request实例演示 概述 问:Urllib能做什么? 答:常用在爬虫开发、API(应用程序编程接口)数据获取、测试; 问:...

    概述

    1. 问:Urllib能做什么?
      答:常用在爬虫开发、API(应用程序编程接口)数据获取、测试;
    2. 问:Urllib需要安装吗?
      答:Python自带的标准库,直接引用(import)即可;
    3. 问: Urllib、Urllib2和Urllib3区别?
      答:①在Python2中分为Urllib和Urllib2,Urllib2可以接收一个Request对象(可设置一个URL的请求头[Headers]),而Urllib只接收一个URL,不能伪装用户代理字符串等。Urllib模块可以提供进行Urlencode的方法,该方法用于GET查询字符串的生成,而Urllib2不具有这样的功能。所以Urllib与Urllib2经常在一起使用。
      ②在Python 3中,将Urllib和Urllib2合并在一起使用,并且命名为Urllib,可以处理URL的组件集合。
      ③Urllib3
      从网上找到的介绍是这样的:
      在这里插入图片描述
      Urllib3功能非常强大,但是用起来却十分简单:
      示例:
      在这里插入图片描述
      urllib3的安装方法如下:
      在这里插入图片描述
      后续再单独学习研究一下这个urllib3吧,本次我们还是以python3的Urllib库为核心;
    4. Urllib里的模块常使用的模块如下表:
    模块简述
    urllib.request用于打开和读取URL
    urllib.error包含提出的例外urllib.request
    urllib.parse用于解析URL
    urllib.robotparser用于解析robots.txt文件

    urllib.request

    1. urllib.request.Request

    语法如下:

    urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
    
    参数说明
    url需要访问的网站的URL地址。url格式必须完整
    data默认值为None, Urllib判断参数data是否为None从而区分请求方式。若参数data为None,则代表请求方式为GET;反之请求方式为POST,发送POST请求。参数data以字典形式存储数据,并将参数data由字典类型转换成字节类型才能完成POST请求
    headers设置request请求头信息
    origin_req_host指定请求方的host名称或者ip地址
    unverifiable设置网页是否需要验证,默认是False,这个参数一般也不用设置。
    method设定请求方式,主要是POST和GET方式

    2. urllib.request.urlopen

    语法如下:

    urllib.request.urlopen(url, data=None, [timeout,]*, cafile=None, capath=None, cadefault=False,context=None
    
    参数说明
    url需要访问的网站的URL地址。url格式必须完整
    data默认值为None, Urllib判断参数data是否为None从而区分请求方式。若参数data为None,则代表请求方式为GET;反之请求方式为POST,发送POST请求。参数data以字典形式存储数据,并将参数data由字典类型转换成字节类型才能完成POST请求
    timeout超时设置,指定阻塞操作(请求时间)的超时(如果未指定,就使用全局默认超时设置)
    cafile、capath和cadefault使用参数指定一组HTTPS请求的可信CA证书。cafile应指向包含一组CA证书的单个文件;capath应指向证书文件的目录;cadefault通常使用默认值即可。
    context描述各种SSL选项的实例

    在实际使用中,常用的参数有url、data和timeout。
    发送请求后,网站会返回相应的响应内容。urlopen对象提供获取网站响应内容的方法函数:

    参数说明
    read()读取整个文件
    readline()一次读取一行
    readlines()读取整个文件到一个list中
    fileno()返回一个整型的文件描述符(file descriptor FD 整型),可用于底层操作系统的 I/O 操作。
    close()关闭一个已打开的文件
    info()返回HTTPMessage对象,表示远程服务器返回的头信息。
    getcode()返回HTTP状态码。
    geturl()返回请求的URL。

    3. urllib.request.urlopen和urllib.request.Request实例演示

    # 请求的url
    url = "https://movie.douban.com/"
    # 添加请求头字典
    headers = {
        'User-Agent': "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36",
        'Referer': " https://movie.douban.com/",
        'Connection': "keep-alive"}
    
    # 设置request的请求头
    req = urllib.request.Request(url, headers=headers)
    # 使用urlopen打开req(url,请求头信息)
    response = urllib.request.urlopen(req)
    # 读取返回内容
    html = response.read().decode('utf8')
    # 写入文件txt
    f = open('html.txt', 'w', encoding='utf8')
    f.write(html)
    

    执行结果:
    执行后的多出一个文件:
    在这里插入图片描述
    里面内容,是请求返回的数据:
    在这里插入图片描述

    展开全文
  • urllib.request详细介绍

    万次阅读 多人点赞 2019-03-24 15:18:46
    参考博客原址:https://blog.csdn.net/bo_mask/article/details/76067790在Python2版本中,有urllib和urlib2两个库可以用来实现request的发送。而在Python3中,已经不存在urllib2这个库了,统一为urllib。Python3 ...

    一、使用urllib

    在Python2版本中,有urllib和urlib2两个库可以用来实现request的发送。而在Python3中,已经不存在urllib2这个库了,统一为urllib。Python3 urllib库官方链接:https://docs.python.org/3/library/urllib.html

    urllib中包括了四个模块,包括:urllib.request, urllib.error, urllib.parse, urllib.robotparser

    urllib.request可以用来发送request和获取request的结果
    urllib.error包含了urllib.request产生的异常
    urllib.parse用来解析和处理URL

    urllib.robotparse用来解析页面的robots.txt文件

    可见其中模拟请求使用的最主要的库便是urllib.request,异常处理用urllib.error库。

    下面会对它们一一进行详细的介绍

    二、使用urllib.request发送请求

    urllib.request.urlopen()基本使用

    urllib.request 模块提供了最基本的构造 HTTP 请求的方法,利用它可以模拟浏览器的一个请求发起过程,同时它还带有处理 authenticaton (授权验证), redirections (重定向), cookies (浏览器Cookies)以及其它内容。

    好,那么首先我们来感受一下它的强大之处,我们百度为例,我们来把这个网页抓下来。

    import urllib.request
     
    response = urllib.request.urlopen("https://www.baidu.com")
    print(response.read().decode("utf-8"))
    

    真正的代码只有两行,我们便完成了百度的抓取,输出了网页的源代码,得到了源代码之后呢?你想要的链接、图片地址、文本信息不就都可以提取出来了吗?接下来我们看下它返回的到底是什么,利用 type 函数输出 response 的类型。

    import urllib.request
    response = urllib.request.urlopen("https://www.baidu.com")
    print(type(response))
    

    输出:<class 'http.client.HTTPResponse'>

    通过输出结果可以发现它是一个 HTTPResposne 类型的对象,它主要包含的方法有 read() 、 readinto() 、getheader(name) 、 getheaders() 、 fileno() 等函数和 msg 、 version 、 status 、 reason 、 debuglevel 、 closed 等属性。 得到这个对象之后,赋值为 response ,然后就可以用 response 调用这些方法和属性,得到返回结果的一系列信息。例如 response.read() 就可以得到返回的网页内容, response.status 就可以得到返回结果的状态码,如200代表请求成功,404代表网页未找到等。

    下面再来一个实例感受一下:

    >>> import urllib.request
    >>> response = urllib.request.urlopen("https://www.baidu.com")
    >>> print(response.status)
    200
    >>> print(response.getheaders())
    [('Accept-Ranges', 'bytes'), ('Cache-Control', 'no-cache'), ('Content-Length', '227'), ('Content-Type', 'text/html'), ('Date', 'Tue, 25 Jul 2017 06:36:40 GMT'), ('Last-Modified', 'Wed, 28 Jun 2017 02:16:00 GMT'), ('P3p', 'CP=" OTI DSP COR IVA OUR IND COM "'), ('Pragma', 'no-cache'), ('Server', 'BWS/1.1'), ('Set-Cookie', 'BD_NOT_HTTPS=1; path=/; Max-Age=300'), ('Set-Cookie', 'BIDUPSID=BEF13521D9F33BE4108EA36C07303743; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com'), ('Set-Cookie', 'PSTM=1500964600; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com'), ('Strict-Transport-Security', 'max-age=0'), ('X-Ua-Compatible', 'IE=Edge,chrome=1'), ('Connection', 'close')]
    >>> print(response.getheader("Server"))
    BWS/1.1
    

    可见,三个输出分别输出了响应的状态码,响应的头信息,以及通过传递一个参数获取了 Server 的类型。

    三、urllib.request.urlopen()详解

    利用以上最基本的 urlopen() 方法,我们可以完成最基本的简单网页的 GET 请求抓取。
    如果我们想给链接传递一些参数该怎么实现呢?我们首先看一下 urlopen() 函数的API。

    urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
    

    可以发现除了第一个参数可以传递URL之外,我们还可以传递其它的内容,比如 data (附加参数), timeout (超时时间)等等。

    data 参数是可选的,如果要添加 data ,它要是字节流编码格式的内容,即 bytes 类型,通过 bytes() 函数可以进行转化,另外如果你传递了这个 data 参数,它的请求方式就不再是 GET 方式请求,而是 POST 。

    # coding=utf-8
    import urllib.parse
    import urllib.request
    data = bytes(urllib.parse.urlencode({'word': 'hello'}), encoding=
    'utf8')
    response = urllib.request.urlopen('http://httpbin.org/post', dat
    a=data)
    print(response.read())
    

    在这里我们传递了一个参数 word ,值是 hello 。它需要被转码成 bytes (字节流)类型。其中转字节流采用了 bytes() 方法,第一个参数需要是 str (字符串)类型,需要用 urllib.parse.urlencode() 方法来将参数字典转化为字符串。第二个参数指定编码格式,在这里指定为 utf8 。

    提交的网址是 httpbin.org ,它可以提供 HTTP 请求测试。 http://httpbin.org/post 这个地址可以用来测试 POST 请求,它可以输出请求和响应信息,其中就包含我们传递的 data 参数。
    运行结果如下:

    {
    "args": {},
    "data": "",
    "files": {},
    "form": {
    "word": "hello"
    },
    "headers": {
    "Accept-Encoding": "identity",
    "Content-Length": "10",
    "Content-Type": "application/x-www-form-urlencoded",
    "Host": "httpbin.org",
    "User-Agent": "Python-urllib/3.5"
    },
    "json": null,
    "origin": "123.124.23.253",
    "url": "http://httpbin.org/post"
    }
    

    我们传递的参数出现在了 form 中,这表明是模拟了表单提交的方式,以 POST 方式传输数据。

    timeout参数

    imeout 参数可以设置超时时间,单位为秒,意思就是如果请求超出了设置的这个时间还没有得到响应,就会抛出异常,如果不指定,就会使用全局默认时间。它支持 HTTP 、 HTTPS 、 FTP 请求。
    下面来用一个实例感受一下:

    >>> import urllib.request
    >>> response = urllib.request.urlopen("http://httpbin.org/get",timeout=1)
    >>> print(response.read())
    

    结果如下:

    During handling of the above exception, another exception occurr
    ed:
    Traceback (most recent call last): File "/var/py/python/urllibte
    st.py", line 4, in <module> response = urllib.request.urlopen('h
    ttp://httpbin.org/get', timeout=1)
    ...
    urllib.error.URLError: <urlopen error timed out>
    

    在这里我们设置了超时时间是1秒,程序1秒过后服务器依然没有响应,于是抛出了 urllib.error.URLError 异常,错误原因是 timed out 。

    因此我们可以通过设置这个超时时间来控制一个网页如果长时间未响应就跳过它的抓取,利用 try,except 语句就可以实现这样的操作。

    import urllib.request
    import  socket
    import urllib.error
    try:
        response = urllib.request.urlopen('http://httpbin.org/get',timeout=0.1)
    except urllib.error.URLError as e:
        if  isinstance(e.reason, socket.timeout):
                print("Time out!")
    

    在这里我们请求了 http://httpbin.org/get 这个测试链接,设置了超时时间是0.1秒,然后捕获了 urllib.error.URLError 这个异常,然后判断异常原因是超时异常,就得出它确实是因为超时而报错,打印输出了 TIME OUT ,当然你也可以在这里做其他的处理。

    运行结果如下:

    Time out!
    

    常理来说,0.1秒内基本不可能得到服务器响应,因此输出了 TIME OUT 的提示。这样,我们可以通过设置 timeout 这个参数来实现超时处理,有时还是很有用的。

    其他参数

    还有 context 参数,它必须是 ssl.SSLContext 类型,用来指定 SSL 设置。cafile 和 capath 两个参数是指定CA证书和它的路径,这个在请求 HTTPS 链接时会有用。

    cadefault 参数现在已经弃用了,默认为 False 。

    以上讲解了 url.request.urlopen() 方法的用法,通过这个最基本的函数可以完成简单的请求和网页抓取,如需详细了解,可以参见官方文档。https://docs.python.org/3/library/urllib.request.html

    四、urllib.request.Request的使用

    由上我们知道利用 urlopen() 方法可以实现最基本的请求发起,但这几个简单的参数并不足以构建一个完整的请求,如果请求中需要加入 headers 等信息,我们就可以利用更强大的 Request 类来构建一个请求。

    首先我们用一个实例来感受一下 Request 的用法:

    import urllib.request
     
    request =urllib.request.Request("https://www.baidu.com")
    response = urllib.request.urlopen(request)
    print(response.read().decode("utf-8"))
    

    可以发现,我们依然是用 urlopen() 方法来发送这个请求,只不过这次 urlopen() 方法的参数不再是一个URL,而是一个 Request ,通过构造这个这个数据结构,一方面我们可以将请求独立成一个对象,另一方面可配置参数更加
    丰富和灵活。

    下面我们看一下 Request 都可以通过怎样的参数来构造,它的构造方法如下。

    class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
    

    第一个参数是请求链接,这个是必传参数,其他的都是可选参数。

    data 参数如果要传必须传 bytes (字节流)类型的,如果是一个字典,可以先用 urllib.parse.urlencode() 编码。

    headers 参数是一个字典,你可以在构造 Request 时通过 headers 参数传递,也可以通过调用 Request 对象的 add_header() 方法来添加请求头。请求头最常用的用法就是通过修改 User-Agent 来伪装浏览器,默认的 User-
    Agent 是 Python-urllib ,你可以通过修改它来伪装浏览器,比如要伪装火狐浏览器,你可以把它设置为 Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11

    origin_req_host 指的是请求方的 host 名称或者 IP 地址。

    unverifiable 指的是这个请求是否是无法验证的,默认是 False 。意思就是说用户没有足够权限来选择接收这个请求的结果。例如我们请求一个HTML文档中的图片,但是我们没有自动抓取图像的权限,这时 unverifiable 的值就是 True 。

    method 是一个字符串,它用来指示请求使用的方法,比如 GET , POST , PUT 等等。
    下面我们传入多个参数构建一个 Request 来感受一下:

    from urllib import request,parse
    url = "http://httpbin.org/post"
    headers = {
        #伪装一个火狐浏览器
        "User-Agent":'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)',
        "host":'httpbin.org'
    }
    dict = {
        "name":"Germey"
    }
    data = bytes(parse.urlencode(dict),encoding="utf8")
    req = request.Request(url=url,data=data,headers=headers,method="POST")
    response = request.urlopen(req)
    print(response.read().decode("utf-8"))
    

    在这里我们通过四个参数构造了一个 Request , url 即请求链接,在 headers 中指定了 User-Agent 和 Host ,传递的参数 data 用了 urlencode() 和 bytes() 方法来转成字节流,另外指定了请求方式为 POST 。

    运行结果如下:

    {
      "args": {}, 
      "data": "", 
      "files": {}, 
      "form": {
        "name": "Germey"
      }, 
      "headers": {
        "Accept-Encoding": "identity", 
        "Connection": "close", 
        "Content-Length": "11", 
        "Content-Type": "application/x-www-form-urlencoded", 
        "Host": "httpbin.org", 
        "User-Agent": "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)"
      }, 
      "json": null, 
      "origin": "1.85.221.5", 
      "url": "http://httpbin.org/post"
    }
    

    通过观察结果可以发现,我们成功设置了 data , headers 以及 method 。

    另外 headers 也可以用 add_header() 方法来添加。

    req = request.Request(url=url, data=data, method=‘POST’)
    req.add_header(‘User-Agent’, ‘Mozilla/4.0 (compatible; MSIE 5.5;Windows NT)’)

    如此一来,我们就可以更加方便地构造一个 Request ,实现请求的发送。

    五、urllib.request高级特性

    大家有没有发现,在上面的过程中,我们虽然可以构造 Request ,但是一些更高级的操作,比如 Cookies 处理,代理该怎样来设置?
    接下来就需要更强大的工具 Handler 登场了。

    简而言之你可以把它理解为各种处理器,有专门处理登录验证的,有处理 Cookies 的,有处理代理设置的,利用它们我们几乎可以做到任何 HTTP 请求中所有的事情。

    首先介绍下 urllib.request.BaseHandler ,它是所有其他 Handler 的父类,它提供了最基本的 Handler 的方法,例
    如 default_open() 、 protocol_request() 等。
    接下来就有各种 Handler 类继承这个 BaseHandler ,列举如下:

    • HTTPDefaultErrorHandler 用于处理HTTP响应错误,错误都会抛出 HTTPError 类型的异常。
    • HTTPRedirectHandler 用于处理重定向。
    • HTTPCookieProcessor 用于处理 Cookie 。
    • ProxyHandler 用于设置代理,默认代理为空。
    • HTTPPasswordMgr 用于管理密码,它维护了用户名密码的表。
    • HTTPBasicAuthHandler 用于管理认证,如果一个链接打开时需要认证,那么可以用它来解决认证问题。 另外还有其他的 Handler ,可以参考官方文档。https://docs.python.org/3/library/urllib.request.html#urllib.request.BaseHandler

    它们怎么来使用,不用着急,下面会有实例为你演示。

    另外一个比较重要的就是 OpenerDirector ,我们可以称之为 Opener ,我们之前用过 urllib.request.urlopen() 这个方法,实际上它就是一个 Opener 。

    那么为什么要引入 Opener 呢?因为我们需要实现更高级的功能,之前我们使用的 Request 、 urlopen() 相当于类库为你封装好了极其常用的请求方法,利用它们两个我们就可以完成基本的请求,但是现在不一样了,我们需要实现更高级的功能,所以我们需要深入一层,使用更上层的实例来完成我们的操作。所以,在这里我们就用到了比调用 urlopen() 的对象的更普遍的对象,也就是 Opener 。

    Opener 可以使用 open() 方法,返回的类型和 urlopen() 如出一辙。那么它和 Handler 有什么关系?简而言之,就是利用 Handler 来构建 Opener 。
    认证
    我们先用一个实例来感受一下:

    import urllib.request
    auth_handler = urllib.request.HTTPBasicAuthHandler()
    auth_handler.add_password(realm='PDQ Application',
                              uri='https://mahler:8092/site-updates.py',
                              user='klem',
                              passwd='kadidd!ehopper')
    opener = urllib.request.build_opener(auth_handler)
    urllib.request.install_opener(opener)
    urllib.request.urlopen('http://www.example.com/login.html')
    

    此处代码为实例代码,用于说明 Handler 和 Opener 的使用方法。在这里,首先实例化了一个 HTTPBasicAuthHandler 对象,然后利用 add_password() 添加进去用户名和密码,相当于建立了一个处理认证的处理器。
    接下来利用 urllib.request.build_opener() 方法来利用这个处理器构建一个 Opener ,那么这个 Opener 在发送请求的时候就具备了认证功能了。接下来利用 Opener 的 open() 方法打开链接,就可以完成认证了。
    代理

    如果添加代理,可以这样做:

    import urllib.request
    proxy_handler = urllib.request.ProxyHandler({
    'http': 'http://218.202.111.10:80',
    'https': 'https://180.250.163.34:8888'
    })
    opener = urllib.request.build_opener(proxy_handler)
    response = opener.open('https://www.baidu.com')
    print(response.read())
    

    此处代码为实例代码,用于说明代理的设置方法,代理可能已经失效。

    在这里使用了 ProxyHandler , ProxyHandler 的参数是一个字典,key是协议类型,比如 http 还是 https 等,value是代理链接,可以添加多个代理。
    然后利用 build_opener() 方法利用这个 Handler 构造一个 Opener ,然后发送请求即可。

    六、Cookie设置

    我们先用一个实例来感受一下怎样将网站的 Cookie 获取下来。

    import http.cookiejar, urllib.request
    cookie = http.cookiejar.CookieJar()
    handler = urllib.request.HTTPCookieProcessor(cookie)
    opener = urllib.request.build_opener(handler)
    response = opener.open('http://www.baidu.com')
    for item in cookie:
       print(item.name+"="+item.value)
    

    首先我们必须声明一个 CookieJar 对象,接下来我们就需要利用 HTTPCookieProcessor 来构建一个 handler ,最后利用 build_opener 方法构建出 opener ,执行 open() 即可。

    运行结果如下:

    BAIDUID=2E65A683F8A8BA3DF521469DF8EFF1E1:FG=1
    BIDUPSID=2E65A683F8A8BA3DF521469DF8EFF1E1
    H_PS_PSSID=20987_1421_18282_17949_21122_17001_21227_21189_21161_20927
    PSTM=1474900615
    BDSVRTM=0
    BD_HOME=0
    

    可以看到输出了每一条 Cookie 的名称还有值。

    不过既然能输出,那可不可以输出成文件格式呢?我们知道很多 Cookie 实际也是以文本形式保存的。

    答案当然是肯定的,我们用下面的实例来感受一下:

    filename = 'cookie.txt'
    cookie = http.cookiejar.MozillaCookieJar(filename)
    handler = urllib.request.HTTPCookieProcessor(cookie)
    opener = urllib.request.build_opener(handler)
    response = opener.open('http://www.baidu.com')
    cookie.save(ignore_discard=True, ignore_expires=True)
    

    这时的 CookieJar 就需要换成 MozillaCookieJar ,生成文件时需要用到它,它是 CookieJar 的子类,可以用来处理 Cookie 和文件相关的事件,读取和保存 Cookie ,它可以将 Cookie 保存成 Mozilla 型的格式。
    运行之后可以发现生成了一个 cookie.txt 文件。

    内容如下:

    # Netscape HTTP Cookie File
    # http://curl.haxx.se/rfc/cookie_spec.html
    # This is a generated file! Do not edit.
    .baidu.com TRUE / FALSE 3622386254 BAIDUID 05A
    E39B5F56C1DEC474325CDA522D44F:FG=1
    .baidu.com TRUE / FALSE 3622386254 BIDUPSID 05
    AE39B5F56C1DEC474325CDA522D44F
    .baidu.com TRUE / FALSE H_PS_PSSID 19638_1453
    _17710_18240_21091_18560_17001_21191_21161
    .baidu.com TRUE / FALSE 3622386254 PSTM 147490
    2606
    www.baidu.com FALSE / FALSE BDSVRTM 0
    www.baidu.com FALSE / FALSE BD_HOME 0
    

    另外还有一个 LWPCookieJar ,同样可以读取和保存 Cookie ,但是保存的格式和 MozillaCookieJar 的不一样,它会保存成与libwww-perl的Set-Cookie3文件格式的 Cookie 。
    那么在声明时就改为

    cookie = http.cookiejar.LWPCookieJar(filename)

    #LWP-Cookies-2.0
    Set-Cookie3: BAIDUID="0CE9C56F598E69DB375B7C294AE5C591:FG=1"; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="208
    4-10-14 18:25:19Z"; version=0
    Set-Cookie3: BIDUPSID=0CE9C56F598E69DB375B7C294AE5C591; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2084-10-1
    4 18:25:19Z"; version=0
    Set-Cookie3: H_PS_PSSID=20048_1448_18240_17944_21089_21192_21161_20929; path="/"; domain=".baidu.com"; path_spec; domain_dot; di
    scard; version=0
    Set-Cookie3: PSTM=1474902671; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2084-10-14 18:25:19Z"; version=0
    Set-Cookie3: BDSVRTM=0; path="/"; domain="www.baidu.com"; path_spec; discard; version=0
    Set-Cookie3: BD_HOME=0; path="/"; domain="www.baidu.com"; path_spec; discard; version=0
     
     
    

    生成的内容如下:由此看来生成的格式还是有比较大的差异的。
    那么生成了 Cookie 文件,怎样从文件读取并利用呢?
    下面我们以 LWPCookieJar 格式为例来感受一下:

    cookie = http.cookiejar.LWPCookieJar()
    cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)
    handler = urllib.request.HTTPCookieProcessor(cookie)
    opener = urllib.request.build_opener(handler)
    response = opener.open('http://www.baidu.com')
    print(response.read().decode('utf-8'))
    

    前提是我们首先利用上面的方式生成了 LWPCookieJar 格式的 Cookie ,然后利用 load() 方法,传入文件名称,后面同样的方法构建 handler 和 opener 即可。
    运行结果正常输出百度网页的源代码。

    好,通过如上用法,我们可以实现绝大多数请求功能的设置了。

    这里是引用

    展开全文
  • 1.urllib.request 请求模块 ...urllib.request.urlopen(url,data=None,timeout=tiem) 返回一个文件 例1(GET): response = urllib.request.urlopen("http://leadingme.top",timeout=1) response.read(...

    Python内置的HTTP请求库

    1.urllib.request 请求模块

    urllib.request.urlopen(url,data=None,timeout=tiem) 返回一个文件

    1(GET): response = urllib.request.urlopen("http://leadingme.top",timeout=1)
    		response.read().decode('utf-8')2(POST): data = bytes(urllib.parse.urlencode({'name':'leadingme'}),encoding='utf-8')
    		 response = urllib.request.urlopen('http://httpbin.org/post',data=data)
    		 import socket urllib.request urllib.error 
    	例3: try:
    			response = urllib.request.urlopen('http://httpbin/get',timeout=0.10)
    		except urllib.error.URLError as e:
    			if isinstance(e.reason,socket.timeout):
    				print('TIME OUT!')
    

    urllib.request.Request(url=url,data=data,headers=headers,method=‘POAT’)

    url = 'http://httpbin/post'
    headers = {
    	User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36
    }
    dict = {
    	'name':'leadingme'
    }
    data = bytes(parse.urlencode(dict),encoding:'utf-8')
    request = request.Request(url=url,data=data,headers=headers,method='POAT')
    response = request.urlopen(request)
    

    代理ip的设置

     proxy-headler = urllib.request.ProxyHandler({
    	'http:':'http://127.0.0.1'
    	'https:':'https':'https://127.0.0.1'
    })
    opener = urllib.request.build_opener(proxy-headler) 
    response = opener.open('http:httpbin.org/get')
    
    2. urllib.error 异常处理模块
    3. urllib.parse url解析模块
    4. urllib.robotparser robots.txt解析模块

    网页信息函数

    1. response.info() 获取网页相关简介信息
    2. response.getcode()或response.status 获取网页爬取的状态信息
    3. response.geturl() 获取当前访问的网页的url
    4. response.getheaders() 获取请求响应头所有键值 response.getheader(“键值”) 获取请求响应头部分键值
    5. response.read().decode(‘utf-8’) 获取响应体

    Headler

    • 概述

      1. Headler相当于一个辅助工具,来帮助我们处理一些额外的工作,比如FTP、Cache等等操作,我们都需要借助Headler来实现。比如在代理设置的时候,就需要用到一个ProxyHandler。
    • 代理

      1. 个完整的代理请求过程为:客户端首先与代理服务器创建连接,接着根据代理服务器所使用的代理协议,请求对目标服务器创建连接、或者获得目标服务器的指定资源(如:文件)。在后一种情况中,代理服务器可能对目标服务器的资源下载至本地缓存,如果客户端所要获取的资源在代理服务器的缓存之中,则代理服务器并不会向目标服务器发送请求,而是直接传回已缓存的资源

      2. 爬虫中可以使用ProxyHeadler设置代理,伪装自己的IP地址。爬取时可以不停地切换IP,服务器检测到不听地域的访问,不会禁用

        from urllib import request
        proxy_handler = request.ProxyHandler( #构建ProxyHandler,传入代理的网址
        {'http':'http://127.0.0.1:9743',
        'https':'https://127.0.0.1:9743'
        }) #实践表明这个端口已经被封了,这里无法演示了
         
        opener = request.build_opener(proxy_handler) #再构建一个带有Handler的opener
         
        response = opener.open('http://www.baidu.com')
        print(response.read())
        
    • Cookie

      1. Cookie是在客户端保存的用来记录用户身份的文本文件。在爬虫时,主要是用来维护登录状态,这样就可以爬取一些需要登录认证的网页了。

      2. cookie在爬虫中可以保持登录状态,持续性爬取

        from urllib import request
        
        from http import cookiejar
        cookie =cookiejar.CookieJar()   #将cookie声明为一个CookieJar对象
        
        handler = request.HTTPCookieProcessor(cookie)
        
        opener = request.build_opener(handler)
        
        response  =opener.open('http://www.baidu.com')   #通过opener传入,并打开网页
        
        for item in cookie:      #通过遍历把已经赋值的cookie打印出来
          print(item.name+'='+item.value)		#通过item拿到每一个cookie并打印
        
      3. Cookie保存: cookie保存成文本文件,若cookie没有失效,我们可以从文本文件中再次读取cookie,在请求时把cookie附加进去,这样就可以继续保持登录状态了

        from urllib import request
        from http import cookiejar
        
        filename="cookie.txt"
        cookie=cookiejar.LWPCookieJar(filename)(可选)
        #cookie=cookiejar.MozillaCookieJar(filename)
        #把cookie声明为cookiejar的一个子类对象————MozillaCookieJar,它带有一个save方法,可以把cookie保存为文本文件
        handler=request.HTTPCookieProcessor(cookie)
        opener=request.build_opener(handler)
        response=opener.open('http://www.baidu.com')
        cookie.save(ignore_discard=True,ignore_expires=True)#调用save方法
        
      4. Cookie读取: 选择相对应的格式来完成读取

        from urllib import request
        from http import cookiejar
        
        cookie=cookiejar.LWPCookieJar() #z注意选择相应的格式,这里是LWP
        cookie.load('cookie.txt',ignore_discard=True,ignore_expires=True)#load方法是读取的关键
        handler=request.HTTPCookieProcessor(cookie)
        opener=request.build_opener(handler)
        response=opener.open('http://www.baidu.com')
        print(response.read().decode('utf-8'))
        

    异常处理

    		from urllib import request,error
    		
    		#我们试着访问一个不存在的网址
    		try:
    		    response = request.urlopen('http://www.cuiqingcai.com/index.html')
    		except error.URLError as e:
    		    print(e.reason)#通过审查可以查到我们捕捉的异常是否与之相符
    
    from urllib import request,error
    
    #我们试着访问一个不存在的网址
    try:
        response = request.urlopen('http://www.cuiqingcai.com/index.html')
    except error.HTTPError as e:#最好先捕捉HTTP异常,因为这个异常是URL异常的子类
    	print(e.reason,e.code,e.headers,sep='\n')
    except error.URLError as e:
        print(e.reason)
    else:
    	print('Request Successfully!')
    

    URL解析

    urlparse: urllib.parse.urlparse(urlstring,scheme=’’,allow_fragments=True #分割成(url,协议类型,和#后面的东西)

    from urllib.parse import urlparse
    
    #无协议类型指定,自行添加的情况
    result1 = urlparse('www.baidu.com/s?wd=urllib&ie=UTF-8',scheme = 'https')
    print(result1)
    
    #有指定协议类型,默认添加的情况
    result2 = urlparse('http://www.baidu.com/s?wd=urllib&ie=UTF-8',scheme = 'https')
    print(result2) scheme = 'http'
    
    allow_fragments参数使用
    result3 = urlparse('http://www.baidu.com/s?#comment',allow_fragments = False)
    Flase表示#后面的东西不能填,原本在fragment位置的参数就会往上一个位置拼接,可以对比result1和result2的区
    

    urljoin: 这个函数用来拼合url

    from urllib.parse import urljoin
    print(urljoin('http://www.baidu.com','FQA.html'))
    #http://www.baidu.com/FQA.html
     
    print(urljoin('http://www.baidu.com','http://www.caiqingcai.com/FQA.html'))
    #http://www.caiqingcai.com/FQA.html
     
    >>>from urllib.parse import urljoin
    >>> urljoin("http://www.chachabei.com/folder/currentpage.html", "anotherpage.html")
    'http://www.chachabei.com/folder/anotherpage.html'
    >>> urljoin("http://www.chachabei.com/folder/currentpage.html", "/anotherpage.html")
    'http://www.chachabei.com/anotherpage.html'
    >>> urljoin("http://www.chachabei.com/folder/currentpage.html", "folder2/anotherpage.html")
    'http://www.chachabei.com/folder/folder2/anotherpage.html'
    >>> urljoin("http://www.chachabei.com/folder/currentpage.html", "/folder2/anotherpage.html")
    'http://www.chachabei.com/folder2/anotherpage.html'
    >>> urljoin("http://www.chachabei.com/abc/folder/currentpage.html", "/folder2/anotherpage.html")
    'http://www.chachabei.com/folder2/anotherpage.html'
    >>> urljoin("http://www.chachabei.com/abc/folder/currentpage.html", "../anotherpage.html")
    'http://www.chachabei.com/abc/anotherpage.html'
    
    

    urlencode: 这个函数用来将字典对象转化为get请求参数

    from urllib.parse import urlencode
     
    params = {
    'name':'zhuzhu',
    'age':'23'
    }
    base_url = 'http://www.baidu.com?'
     
    url = base_url+urlencode(params)   #将params对象编码转换
    
    print(url)
    
    展开全文
  • python3: urllib.request urllib.parse (py3整合过了,主要就是导入这两个库) 字符串 == 》二进制之间的转化 encode() 字符串 ==》 二进制(字节类型) decode() 二进制 (字节类型)==》 字符串 ...
  • urllib.request.urlopen()基本使用

    万次阅读 2020-03-12 18:12:11
    import urllib.request url = '...# 方式一 response = urllib.request.urlopen(url) print(type(response)) # <class 'http.client.HTTPResponse'> # 方式二 request = urllib.request.Req...
  • python中urllib.request使用

    千次阅读 2021-10-09 16:15:03
    requests比urllib.request更加强大便捷,但是urllib.request也有其优点。 我们都知道,urlopen()方法能发起最基本对的请求发起,但仅仅这些在我们的实际应用中一般都是不够的,可能我们需要加入headers之类的参数,...
  • urllib模块提供了一系列用于操作URL的功能。 urllib Python3之后,urlliburllib2模块合并为了一个模块,即urllib模块,因此处理URL时用一个urllib模块即可满足基本所...urllib.request :最基本的http请求模...
  • Python 3.7.1 模块 urllib.request

    千次阅读 2018-12-19 12:59:21
    功能urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None) 源代码: Lib / urllib / request.py 此模块定义了有助于在现实环境中打开URL(主要是...
  • Python中的urllib.request模块

    万次阅读 2018-08-24 17:18:42
    其中urllib2.urlopen()变成了urllib.request.urlopen() urllib2.Request()变成了urllib.request.Request() urlliburllib2模块之间的区别 在python中,urlliburllib2不可相互替代的。 整体来说,...
  • File "D:\tool\Python36\lib\urllib\request.py", line 504, in _call_chain result = func(*args) File "D:\tool\Python36\lib\urllib\request.py", line 650, in http_error_default raise HTTPError(req....
  • opener = urllib.request.build_opener() # 请求头 opener.addheaders = [ # ('Host', 'upos-hz-mirrorks3.acgvideo.com'), #注意修改host,不用也行 ('User-Agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS ...
  • 第1章 urllib.request.urlopen 1.1 功能描述 1.2 函数原型 第2章 urllib.request.requests.get() 2.1 功能描述 2.2 函数原型 第1章 urllib.request.urlopen 1.1 功能描述 打开URL网址,url参数可以是一个...
  • Python3 urllib.request库的基本使用

    千次阅读 2018-05-14 10:10:00
    Python3 urllib.request库的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,我们先学习urllib.request库。 urllib.request库 是 ...
  • opener() 方法创建自定义opener对象 9 #根据代理开关是否打开,使用不同的代理模式 10 ifproxy_switch:11 opener =urllib.request.build_opener(httpproxy_handler)12 else:13 opener =urllib.request.build_opener...
  • urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse url解析模块 urllib.robotparser robots.txt解析模块 二.实践操作 (1)针对含参数访问 import urllib.request import urllib.pa...
  • 1.结合Request()和urlopen()传Headers;2.get请求需手动拼接并使用quote()对中文处理;3.post请求直接转发即可
  • Python3 模块1之 Urlliburllib.request

    千次阅读 2018-01-24 01:25:19
    什么是 Urllib 库? urllib 库 是 Python 内置的 HTTP 请求库。urllib 模块提供的上层接口,使访问 ...1.urllib.request 请求模块 2. urllib.error 异常处理模块 3. urllib.parse url 解析模块 4. urllib.robotp
  • , str(file_name)) File "/Users/wz/anaconda/lib/python3.5/urllib/request.py", line 188, in urlretrieve with contextlib.closing(urlopen(url, data)) as fp: File "/Users/wz/anaconda/lib/python3.5/urllib/...
  • 我用Jupyter Notebook爬取了需要保存的图片的url,但是利用urllib.request.urlretrieve() 将图片保存到本地,图片没有内容,该url使用360浏览器打开也是没有内容的图片(和我保存在本地一样),但是用goole打开就是...
  • import urllib.request import urllib.parse page = int(input('请输入页码:')) if page < 1: print('页码输入错误,请输入大于等于1的数字') url = 'https://maoyan.com/films?showType=3&' headers = {...
  • 包含urllib.request,urllib.error,urllib.parse,urllib.robotparser四个子模块。1.urllib.request 负责请求2. urllib.error 异常处理模块3. urllib.parse url 负责解析4. urllib.robotparser 负责robots.txt文件的...
  • Python3中的urllib.request模块

    万次阅读 2018-01-03 09:37:53
    在Python 3以后的版本中,urllib2这个模块已经不单独存在(也就是说当你import urllib2时,系统提示你没这个模块),urllib2被合并到了urllib中,叫做urllib.requesturllib.error 。 urllib整个模块分为...
  • python3网络爬虫一《使用urllib.request发送请求》

    万次阅读 多人点赞 2017-07-25 16:16:05
    python 爱好者交流群:810306356...在Python2版本中,有urllib和urlib2两个库可以用来实现request的发送。而在Python3中,已经不存在urllib2这个库了,统一为urllib。Python3 urllib库官方链接 https://docs.pytho...
  • Python爬虫入门:urllib.request.Request详解

    万次阅读 多人点赞 2019-07-21 20:36:31
    Python爬虫入门:urllib.request.Request详解Request简介基本用法参数解析用法 Request简介 urlopen()方法可以实现最基本的请求的发起,但如果要加入Headers等信息,就可以利用Request类来构造请求。 使用方法为:...
  • urllib.request 模块定义了适用于在各种...使用标准库中的urllib.request.urlopen(url,data = None,[ timeout,] *,cafile = None,capath = None,cadefault = False,context = None )方法。该方法参数简介如下

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 89,732
精华内容 35,892
关键字:

urllib.request