精华内容
下载资源
问答
  • Response [200]> import requests url='https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=8452203&score=0&sortType=5&page=0&pageSize=10&...

    初学python,爬数据的时候报错<Response [200]>

    import requests
    url='https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=8452203&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1'
    det=requests.get(url)
    print(det)
    

    忘记少加了个 herder,然后把返回的数据变成文本

    import requests
    url='https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=8452203&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1'
    herder={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36'}
    det=requests.get(url,headers=herder)
    print(det.text)
    
    展开全文
  • 爬虫response响应对象 示例代码: import requests # 目标url url = 'https://www.baidu.com' # 向目标url发送get请求 response = requests.get(url) # 打印响应内容 # print(response.text) print(response...

    爬虫之response响应对象

    示例代码:

    import requests
    
    # 目标url
    url = 'https://www.baidu.com'
    
    # 向目标url发送get请求
    response = requests.get(url)
    
    # 打印响应内容
    # print(response.text)
    print(response.content) # 注意这里!
    

    运行效果:

    观察上边代码运行结果发现,有好多乱码;这是因为编解码使用的字符集不同早造成的;我们尝试使用下边的办法来解决中文乱码问题   【手动设置编码格式 response.encoding = 'utf8'  ,   此时写成'utf-8'也是可以的】

    import requests 
    
    # 目标url
    url = 'https://www.baidu.com' 
    
    # 向目标url发送get请求
    response = requests.get(url)
    
    # 打印响应内容
    # print(response.text)
    print(response.content.decode()) # 注意这里!
    

    运行效果:

    1. response.text是requests模块按照chardet模块推测出的编码字符集进行解码的结果
    2. 网络传输的字符串都是bytes类型的,所以response.text = response.content.decode('推测出的编码字符集')
    3. 我们可以在网页源码中搜索charset,尝试参考该编码字符集,注意存在不准确的情况

    1.1 response.text 和response.content的区别:     【response.content是存储的bytes类型的响应源码,可以进行decode操作】

    • response.text
      • 类型:str
      • 解码类型: requests模块自动根据HTTP 头部对响应的编码作出有根据的推测,推测的文本编码
    • response.content
      • 类型:bytes
      • 解码类型: 没有指定

     


    1.2 通过对response.content进行decode,来解决中文乱码

    • response.content.decode() 默认utf-8
    • response.content.decode("GBK")
    • 常见的编码字符集
      • utf-8
      • gbk
      • gb2312
      • ascii (读音:阿斯克码)
      • iso-8859-1

     


    1.3 response响应对象的其它常用属性或方法

    response = requests.get(url)中response是发送请求获取的响应对象;response响应对象中除了text、content获取响应内容以外还有其它常用的属性或方法:

    • response.url响应的url;有时候响应的url和请求的url并不一致
    • response.status_code 响应状态码
    • response.request.headers 响应对应的请求头
    • response.headers 响应头
    • response.request._cookies 响应对应请求的cookie;返回cookieJar类型
    • response.cookies 响应的cookie(经过了set-cookie动作;返回cookieJar类型
    • response.json()自动将json字符串类型的响应内容转换为python对象(dict or list)
    import requests
    
    # 目标url
    url = 'https://www.baidu.com'
    
    # 向目标url发送get请求
    response = requests.get(url)
    
    # 打印响应内容
    # print(response.text)
    # print(response.content.decode())             # 注意这里!
    print(response.url)                            # 打印响应的url
    print(response.status_code)                    # 打印响应的状态码
    print(response.request.headers)                # 打印响应对象的请求头
    print(response.headers)                        # 打印响应头
    print(response.request._cookies)            # 打印请求携带的cookies
    print(response.cookies)                        # 打印响应中携带的cookies
    print(response.json)       #  此时json后面不能放()

    运行效果:

    展开全文
  • **- 1、Response对象的属性**属性说明r.status_codeHTTp请求的返回状态,200表示连接成功,404表示失败r.textHTTp响应内容的字符串形式,即url对应的页面内容r.encoding从HTTP header中猜测的响应内容编码方式r....

    **

    - 1、Response对象的属性

    **

    属性

    说明

    r.status_code

    HTTp请求的返回状态,200表示连接成功,404表示失败

    r.text

    HTTp响应内容的字符串形式,即url对应的页面内容

    r.encoding

    从HTTP header中猜测的响应内容编码方式

    r.apparent_encoding

    从内容中分析出的响应内容编码方式(备选编码方式)

    r. content

    HTTP 响应内容的二进制形式

    response的编码意义

    r.encoding

    从HTTP header中猜测的响应内容编码方式

    r.apparent_encoding

    从内容中分析出的响应内容编码方式(备选编码方式)

    r.encoding:如果header中不存在charset,则认为编码为IS0-8859-1 r.text根据r.encoding显示网页内容

    r.apparent_encoding:根据网页内容分析出的编码方式。可以看作是r.encoding的备选

    **

    2、requsets的异常

    **

    异常

    说明

    requsets.ConnectionError

    接错误异常,如DNs查询失败、拒绝连接等

    requsets.HTTPError

    HTTP错误异常

    requsets.URLRequired

    URL缺失异常

    requsets.TooManyRedirects

    超过最大重定向次数,产生重定向异常

    requsets.ConnecTimeout

    连接远程服务器超时异常

    requsets.Timeout

    请求URL超时,产生超时异常

    3、通用代码框架

    import requests

    #定义通用爬虫代码框架

    def getHTMLText(url):

    try:

    r=requests.get(url,timeout=30)

    r.raise_for_status()#如果状态不是200,引发HTTPError异常

    r.encoding=r.apparent_encoding

    return r.text

    except:

    return"产生异常"

    #main函数

    if _name_=='_main_':

    url="http://www.baidu.com"

    print(getHTMLText(url))

    4、HTTP协议

    HTTP,( Hypertext Transfer Protocol, )超文本传输协议

    HTTP是一个基于“请求与响应”模式的、无状态的应用层协议

    HTTP 协议采用 URL 作为定位网络资源的标识,URL 格式如下

    http //host[:port][path]

    host:合法的lnternet主机域名或IP地址

    port:端口号,缺省端口为80

    path:请求资源的路径

    (1)HTTP协议对资源的操作

    方法 说明

    方法

    说明

    GET

    请求获取URL位置的资源

    HEAD

    请求获取URL位置资源的响应消息报告,即获得该资源的头部信息

    POST

    请求向URL位置的资源后附加新的数据

    PUT

    请求向URL位置存储一个资源,覆盖原URL位置的资源

    PATCH

    请求局部更新URL位置的资源,即改变该处资源的部分内容

    DELETE

    请求删除URL位置存储的资源

    (2)PATCH和PUT的区别

    假设URL位置有一组数据UserInfo,包括UserID、UserName等20个字段

    需求:用户修改了UserName,其他不变

    采用PATCH,仅向URL提交UserName的局部更新请求

    采用PUT,必须将所有20个字段一并提交到URL,未提交字段被删除

    PATCH的最主要好处:节省网络带宽

    (3)HTTP协议与Requests库功能一致相关方法对应

    HTTP协议方法

    Requests库方法

    GET

    requests.get()

    HEAD

    requests.head()

    POST

    requests.post()

    PUT

    requests.put()

    PATCH

    requests.patch()

    DELETE

    requests.delete()

    展开全文
  • import requests import json KEY = '' # 此处替换为你自己的KEY,在Qmsg酱官网登录后,在控制台可以获取KEY data = { "msg": "测试", # 需要发送的消息 "qq": ""123 # 需要接收消息的QQ号码 ...
    import requests
    import  json
    KEY = ''  # 此处替换为你自己的KEY,在Qmsg酱官网登录后,在控制台可以获取KEY
    data = {
        "msg": "测试",  # 需要发送的消息
        "qq": ""123  # 需要接收消息的QQ号码
    }
    url2 = 'https://qmsg.zendee.cn/send/' + KEY  # 私聊消息推送接口
    url = url2
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.67 Safari/537.36 Edg/87.0.664.47'}
    html = requests.post(url, data=data,headers=headers)
    print('***')
    print("html=",html)
    print('***')
    print(html.text)
    print('***')
    code = json.loads(html.text).get('code')
    print("code====",code)
    if code == 0 :
        print("成功发送")
    else:
        print("发送失败原因为==",json.loads(html.text).get('reason'))
        # 如果还有一层那么就再一次  .get('那一层的字段')
        # print("发送失败原因为==", json.loads(html.text).get('info').get('下一层'))

    下图是打印语句

     

     

    展开全文
  • 1.UA被识别为爬虫,封了,解决–> 设置cookie池 import random def cookie_list(): USER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR ...
  • requests.get()构造一个向服务器请求资源的Request对象,返回一个包含服务器资源的Response对象,...r.status_code HTTP请求的返回状态,200表示连接成功,404表示失败 r.text HTTP响应内容的字符串形式,即,...
  • 先放输出结果 E:\Python38\python.exe E:/PycharmProjects/test.py ...<Response [200]> <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <link href
  • 作为爬虫,在采集数据的过程中我们会遇到很多的状态码,不同的状态码代表不同的意思。那么我们今天就重点来了解下爬虫程序返回429意味着什么? 我们就以淘宝为例进行分析,淘宝的反爬机制大家都懂,不是一般的严格,...
  • 1.Scrapy Request和Response相关参数介绍Request先关参数介绍Request 部分源码:# 部分代码class Request(object_ref):def __init__(self, url, callback=None, method='GET', headers=None, body=None,cookies=None...
  • 本章将介绍Request与Response,更多内容请参考:Python学习指南RequestRequest源码:# 部分代码class Request(object_ref):def __init__(self, url, callback=None, method='GET', headers=None, body=None,cookies=...
  • python 爬虫报 404

    2020-12-18 23:59:15
    HTTP status code is not handled or not allowed 2019-01-05 15:50:24 [csrc][scrapy.core.engine] DEBUG: Crawled (200) (referer: http://www.csrc.gov.cn/pub/newsite/xxpl/yxpl/index_9.html) 2019-01-05 15:...
  • 每天访问量都到达了好几万,凌晨访问也到达了过万,以前网站白天就1000多的访问量,最近公司...配置阿里云waf防火墙防爬虫配置 配置之后访问量开始下降 匹配上的结果都被拦截掉了,响应防火墙主题码405 ...
  • Python爬虫编码问题?

    2020-12-24 09:12:27
    python的编码确实是很蛋疼的东西,特别是在采集时候,用windows控制台来运行的更蛋疼一些,因为工作关系,我自己主要是用的cygwin来运行的。你从知乎抓下来的代码经过BeautifulSoup处理之后应该是Unicode的,所以...
  • 首先分析一段简短十分初级的爬虫代码 >>>import requests >>>r=requests.get("http://www.baidu.com") >>>print(r.status_code) 200 >>>type(r) <class 'requests.models....
  • import requestsfrom bs4 import BeautifulSoupheaders = { 'Cookie':'OCSSID=4df0bjva6j7ejussu8al3eqo03', 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit...
  • java爬虫爬取网页内容

    2021-04-24 13:16:52
    1、网络爬虫按照一定的规则爬取网页上的信息,通常是爬取到一些URL之后然后对这些URL放入队列在一次次的进行搜索。2、Java爬虫网页网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,...
  • 上一篇讲道了爬虫入门,这一篇介绍怎么使用爬虫框架来爬数据。框架用的是scrapy https://doc.scrapy.org/en/latest/。在开始动手之前,还是建议大家用pyenv和virtualenv隔离一下环境。当然如果觉得麻烦的话可以略过...
  • 在进行数据爬取的时候,出现如下错误,一直显示response.status_code为418 1. 原理 执行程序的时候一直返回418,最根本的原因是因为网站的反爬程序返回的结果 查询溯源,其解释权为 418 I’m a teapot The ...
  • 爬虫之数据提取响应内容的分类 在发送请求获取响应之后,可能存在多种不同类型的响应内容;而且很多时候,我们只需要响应内容中的一部分数据 结构化的响应内容 json字符串 【高频出现】 可以使用re、...
  • python爬虫小案例汇总

    2021-02-04 06:17:24
    python爬虫入门之request模块爬虫爬虫概念爬虫呢,就是编写一个程序去模仿上网过程,让其去互联网上获取数据的过程。爬虫分类爬虫大致分为四种:通用爬虫:爬取整个页面。聚焦爬虫:只爬取页面中你需要的部分内容。...
  • 文章目录requestsrequests基础requests模块发送get请求response响应对象response.text 和response.content的区别解决中文乱码response响应对象的其它常用属性或方法requests实操requests模块发送请求发送带参数的...
  • 爬虫入门

    2021-05-11 19:55:33
    导读网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和...
  • 经过前一个例子的学习,已经对scrapy写爬虫之简单,代码量之少,感觉到非常吃惊了吧。为了更进一步了解scrapy的运行机制,以及它的实际工作过程,再来学习一个的爬取国外名人名言的例子,透过这个例子再次地加深...
  • python爬虫100例教程 python爬虫实例100例子 涉及主要知识点: web是如何交互的 requests库的get、post函数的应用 response对象的相关函数,属性 python文件的打开,保存 代码中给出了注释,并且可以直接运行哦...
  • 本篇博客复盘一下 scrapy 相关知识,首先从 Resquest 和 Response 对象开始。
  • } result = requests.post(url=url, data=data, headers=headers) print(result.status_code) 运行之后,控制台会输出200,同时评论帖子下面会多出一条评论数据,如下图所示: RequestsCookieJar() 除了通过请求头...
  • SpringBoot爬虫

    千次阅读 2021-05-09 23:02:29
    网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 简单来说就是通过编写脚本模拟浏览器发起请求获取数据。 爬虫...
  • 爬虫,从这里开始!
  • 情况 雪球非鉴权api使用浏览器 可以直接访问到。 使用python3.7模拟浏览器访问,...{ 'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'} req = urllib.request.Request(url,headers=headers) response &
  • 爬虫】使用request模块进行爬虫

    千次阅读 2021-02-04 13:02:59
    本系列为自己学习爬虫的相关笔记,如有误,欢迎大家指正 引入 在python实现的网络爬虫中,用于网络请求发送的模块有两种,第一种为urllib模块,第二种为requests模块。urllib模块是一种比较古老的模块,在使用的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 89,521
精华内容 35,808
关键字:

爬虫response200

爬虫 订阅