为什么 Python 使用xpath爬取网页数据，但返回的结果一直为空？

weixin_41769509 2018-06-20 04:09:22

我在程序里写的代码没有错，但是运行时每次返回爬取的数据都是空列表，但是在终端打一样的代码，却可以获取到结果，这是为什么？而且我在虚拟机是也可以得到结果

源码：



import urllib, urllib.request, urllib.parse

from lxml import etree



url = "https://tieba.baidu.com/f?kw=lol&pn=50"

headers = {"User-Agent": "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50"}

request = urllib.request.Request(url, headers = headers)

html = urllib.request.urlopen(request).read()

content = etree.HTML(html)

link_list = content.xpath("//a[@class='j_th_tit ']/@href")

print(link_list)

...全文

5056 9 打赏收藏转发到动态举报

写回复

9 条回复

切换为时间正序

请发表友善的回复…

发表回复

wudamen 2018-08-30

打赏
举报

回复

有些网站会针对不同操作系统不同浏览器返回不同的源代码，百度贴吧刚好就是一个例子。

程鑫岚 2018-08-30

打赏
举报

回复

不过我没写user-agent 但是有返回内容

程鑫岚 2018-08-30

打赏
举报

回复 1

你好，这几天我也在爬和你一样的东西，只是为什么用soup.find_all()获取的是空列表，而用xpath就可以？尝试几次都是

weixin_41769509 2018-06-21

打赏
举报

回复 1

引用 4 楼 oyljerry 的回复:

[quote=引用 3 楼 weixin_41769509 的回复:]
返回的是网页的源码，这个有测试过

那就是xpath匹配是否正确。逐步排除[/quote]

我在浏览器上已经测试了xpath了，都是没有问题的，而且在ipython中写也是没有问题的，但是就不知道为什么在解析运行时就一直返回一个空列表

oyljerry 2018-06-21

打赏
举报

回复

引用 3 楼 weixin_41769509 的回复:

返回的是网页的源码，这个有测试过

那就是xpath匹配是否正确。逐步排除

weixin_41769509 2018-06-21

打赏
举报

回复 1

我终于找到原因了，原来跟User-Agent 有关系，我换了个User-Agent就OK了，某一些User-Agent返回值一直是个空列表

weixin_41769509 2018-06-20

打赏
举报

回复

返回的是网页的源码，这个有测试过

oyljerry 2018-06-20

打赏
举报

回复

先代码中加点日志等，看看返回的数据是什么，是不是拿到了，然后就是header等是否被检查

weixin_41769509 2018-06-20

打赏
举报

回复

不上一些图来说明一下

这是终端下python或ipython 直接写代码的运行结果

这是写在python脚本语言里解析运行的结果

使用Python爬取一个网页并解析爬虫准备Python基础语法爬取一个网页的整体思路基础概念简单思路详细思路代码示例数据在目标url中数据通过其他url返回爬虫准备 Python基础语法首先，当你看到这篇文章的时候，我们假定你本身了解Python的基础语法以及熟悉如何安装Python第三方库。在这个基础上，我们就可以继续往下看啦。爬取一个网页的整体思路基础概念网页：网页是构成网站的基本元素，是承载各种网站应用的平台. 例：百度首页 URL：在WWW上，每一信息资源都有统一的且在网上唯一的地址. 例

都说python爬网页数据方便，我们今天就来试试，python爬取数据到底有多方便简介爬取数据，基本都是通过网页的URL得到这个网页的源代码，根据源代码筛选出需要的信息准备 IDE：pyCharm 库：requests、lxml 大概介绍一下，这俩库主要为我们做什么服务的 requests：获取网页源代码 lxml：得到网页源代码中的指定数据言简意赅有没有 ^_^...

在使用XPath爬取网站中遇到的写完代码发现运行后返回值为 [] 空列表解决方法：1、首先看看你的这段代码中是否有 "tbody"存在，把"tbody"去掉为什么呢？因为在用xpath解析网页的时候，会遇到tbody标签。tbody标签有的时候可以解析，有的时候不可以解析，遇到tbody标签时要看网页源代码，如果源代码有tbody标签，就要加上tbody标签才能解析。如果源代码没有tbody标签，那么tbody标签是浏览器对html文本进行一定的规范化而强行加上去的，这时如果xpath中有tb

本次程序只爬取了豆瓣top250电影的展示页面的数据，没有爬取电影详情页的数据。在前面我们已经获取了每一部电影详情页的链接links，如果想要爬取电影的详情页，可以通过for循环遍历列表links，对每一个详情页发起请求，从而获取电影详情页的数据并进行解析。

大家好，本文将围绕利用python爬取简单网页数据步骤展开说明，如何利用python爬取网页内容是一个很多人都想弄明白的事情，想搞清楚python爬取网页数据步骤图解需要先了解以下几个事情。

37,739

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章