java，网络爬虫，爬不到网页源码，度娘表示心力交瘁了，求助论坛大神。【详见问题描述】

LY_WAIT 2017-01-03 10:26:39

论坛大神们，新年好哇！
小弟正在做从网页爬取数据的一个功能，原本的想法是，爬取网页源码，存入本地文件中，然后利用正则表达式提取所需的数据。
然鹅，理想与现实总是水火不容。
在爬源码的过程中，发现有的网页可以顺利爬取，有的网页源码爬不到（如下图所示）。请教大神：这是什么原因？有没有推荐的解决办法？
[私以为代码有问题，但是有的网页却能够正确爬到，就很不解]

...全文

927 5 打赏收藏转发到动态举报

写回复

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

junzibuqi124 2017-01-13

打赏
举报

回复

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36', 'cookie': 'SINAGLOBAL=7452444371129.994.1466409113239; _s_tentry=games.sina.com.cn; Apache=763154962656.2007.1482714299791; ULV=1482714301472:22:5:1:763154962656.2007.1482714299791:1482471420323; login_sid_t=5cb1ae85b85caff209fe43ecf27fa2bd; UOR=,,login.sina.com.cn; SCF=AuQy0GFNTq0nNcrvhfEw9ImgQ3A1kg1dU4yxrIBdps6BKCyaPq4RS8B0JKWyDZdr_AeRfPg3zEUwQLk0zi2LOrU.; SUB=_2A251YBNUDeTxGeVG6VIU9SrIyD6IHXVWFAOcrDV8PUNbmtBeLXn6kW8WjSZss--rEVZA5Jdlwh_g90kBMA..; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9W5_6ENrCysORDvx.keWmkQC5JpX5K2hUgL.FoeReo5fSKBXe0z2dJLoIEMLxK-L1K5L1-zLxK-LB-BL1K5LxKBLBonL12BLxK-L1K.LBKnpeoBt; SUHB=0IIFs8XGciVw-c; ALF=1514509956; SSOLoginState=1482973957; un=junzibuqi124@163.com; wvr=6', 'Referer':'http://www.weibo.com/u/5519738412/home?wvr=5&lf=reg' } req = urllib.request.Request(url=url, headers=headers) res = urllib.request.urlopen(req)

LY_WAIT 2017-01-06

打赏
举报

回复

大神在哪里哇，自己先顶一下

LY_WAIT 2017-01-03

打赏
举报

回复

引用 2 楼 u014519194 的回复:

爬的时候headers加了吗，还是只是单纯的请求url 一些网站加了反扒技术，所以要把爬虫伪装成浏览器

单纯的URL，有的网页确实可以正确爬取。如何伪装成浏览器呢？小弟学得不深，还请明示啊。

junzibuqi124 2017-01-03

打赏
举报

回复

爬的时候headers加了吗，还是只是单纯的请求url 一些网站加了反扒技术，所以要把爬虫伪装成浏览器

浮云若水 2017-01-03

打赏
举报

回复

有些网站是有反爬功能的，记得我爬10086的时候爬到的确实一堆乱糟糟的东西：“兄弟你这爬虫不咋样啊。。。。。”什么之类的看看是不是呗网页给重定向了

Java爬虫，信息抓取的实现详细完整源码实例打包给大家，需要的可以下载下载学习！！！

文章大纲一、网络爬虫基本介绍二、java常见爬虫框架介绍三、WebCollector实战四、项目源码下载五、参考文章一、网络爬虫基本介绍 1. 什么是网络爬虫网络爬虫（又被称为网页蜘蛛，网络机器人，在社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 2. ...

以上就是爬虫的一些基本知识，主要介绍了网络爬虫的使用工具和反爬虫策略，这些东西在后续对我们的爬虫学习会有所帮助，由于这几年断断续续的写过几个爬虫项目，使用 Java 爬虫也是在前期，后期都是用 Python，最近突然间对 Java 爬虫又感兴趣了，所以准备写一个爬虫系列博文，重新梳理一下 Java 网络爬虫，算是对 Java 爬虫的一个总结，如果能帮助到想利用 Java 做网络爬虫的小伙伴，那就更棒啦。就是遵循被爬服务器的规则，不去影响被爬服务器的正常运行，不把被爬服务搞垮，这就是有 “道德” 的爬虫。..

今天收到了一份官方发来的消息：4年了，所以打算送出3本书。《Java网络爬虫精解与实践》抽奖方式我放在文章末尾了。《Java网络爬虫精解与实践》全面而系统地介绍与网络爬虫程序相关的理论知识，并包含大量的实践操作案例。《Java网络爬虫精解与实践》共分为 8 章。第 1 章以自动化框架为基础，介绍网络爬虫程序的入门开发实践。第 2 章深入讲解网页内容的处理、解析技术和数据提取方法。第 3 章讨论验证码识别技术以及如何有效绕过验证码的策略。第 4 章涉及网络抓包技术及其对抗策略。

java jsoup 网络爬虫 java jsoup 网络爬虫学习例子（一）抓取豆瓣电影名称+推荐星级 java jsoup 网络爬虫学习例子（二）只抓取豆瓣电影5星（力荐）电影名称 java jsoup 网络爬虫学习例子（三）抓取豆瓣电影海报图片下载到本地 java jsoup 网络爬虫学习例子（四）抓取网页连接插入mysql数据库 java ...

51,411

社区成员

86,052

社区内容

发帖

与我相关

我的任务

javaspring bootspring cloud 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章