社区
Java
帖子详情
java,网络爬虫,爬不到网页源码,度娘表示心力交瘁了,求助论坛大神。【详见问题描述】
LY_WAIT
2017-01-03 10:26:39
论坛大神们,新年好哇!
小弟正在做从网页爬取数据的一个功能,原本的想法是,爬取网页源码,存入本地文件中,然后利用正则表达式提取所需的数据。
然鹅,理想与现实总是水火不容。
在爬源码的过程中,发现有的网页可以顺利爬取,有的网页源码爬不到(如下图所示)。请教大神:这是什么原因?有没有推荐的解决办法?
[私以为代码有问题,但是有的网页却能够正确爬到,就很不解]
...全文
927
5
打赏
收藏
java,网络爬虫,爬不到网页源码,度娘表示心力交瘁了,求助论坛大神。【详见问题描述】
论坛大神们,新年好哇! 小弟正在做从网页爬取数据的一个功能,原本的想法是,爬取网页源码,存入本地文件中,然后利用正则表达式提取所需的数据。 然鹅,理想与现实总是水火不容。 在爬源码的过程中,发现有的网页可以顺利爬取,有的网页源码爬不到(如下图所示)。请教大神:这是什么原因?有没有推荐的解决办法? [私以为代码有问题,但是有的网页却能够正确爬到,就很不解]
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
5 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
junzibuqi124
2017-01-13
打赏
举报
回复
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36', 'cookie': 'SINAGLOBAL=7452444371129.994.1466409113239; _s_tentry=games.sina.com.cn; Apache=763154962656.2007.1482714299791; ULV=1482714301472:22:5:1:763154962656.2007.1482714299791:1482471420323; login_sid_t=5cb1ae85b85caff209fe43ecf27fa2bd; UOR=,,login.sina.com.cn; SCF=AuQy0GFNTq0nNcrvhfEw9ImgQ3A1kg1dU4yxrIBdps6BKCyaPq4RS8B0JKWyDZdr_AeRfPg3zEUwQLk0zi2LOrU.; SUB=_2A251YBNUDeTxGeVG6VIU9SrIyD6IHXVWFAOcrDV8PUNbmtBeLXn6kW8WjSZss--rEVZA5Jdlwh_g90kBMA..; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9W5_6ENrCysORDvx.keWmkQC5JpX5K2hUgL.FoeReo5fSKBXe0z2dJLoIEMLxK-L1K5L1-zLxK-LB-BL1K5LxKBLBonL12BLxK-L1K.LBKnpeoBt; SUHB=0IIFs8XGciVw-c; ALF=1514509956; SSOLoginState=1482973957; un=junzibuqi124@163.com; wvr=6', 'Referer':'http://www.weibo.com/u/5519738412/home?wvr=5&lf=reg' } req = urllib.request.Request(url=url, headers=headers) res = urllib.request.urlopen(req)
LY_WAIT
2017-01-06
打赏
举报
回复
大神在哪里哇,自己先顶一下
LY_WAIT
2017-01-03
打赏
举报
回复
引用 2 楼 u014519194 的回复:
爬的时候headers加了吗,还是只是单纯的请求url 一些网站加了反扒技术,所以要把爬虫伪装成浏览器
单纯的URL,有的网页确实可以正确爬取。 如何伪装成浏览器呢? 小弟学得不深,还请明示啊。
junzibuqi124
2017-01-03
打赏
举报
回复
爬的时候headers加了吗,还是只是单纯的请求url 一些网站加了反扒技术,所以要把爬虫伪装成浏览器
浮云若水
2017-01-03
打赏
举报
回复
有些网站是有反爬功能的,记得我爬10086的时候 爬到的确实一堆乱糟糟的东西:“兄弟你这爬虫不咋样啊。。。。。”什么之类的 看看是不是呗网页给重定向了
Java
爬
虫
,信息抓取的实现 完整实例
源码
Java
爬
虫
,信息抓取的实现 详细完整
源码
实例打包给大家,需要的可以下载下载学习!!!
java
之
网络
爬
虫
介绍
文章大纲 一、
网络
爬
虫
基本介绍 二、
java
常见
爬
虫
框架介绍 三、WebCollector实战 四、项目
源码
下载 五、参考文章 一、
网络
爬
虫
基本介绍 1. 什么是
网络
爬
虫
网络
爬
虫
(又被称为
网页
蜘蛛,
网络
机器人,在社区中间,更经常的称为
网页
追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 2. ...
python
网络
爬
虫
、
Java
网络
爬
虫
,哪个更好?
以上就是
爬
虫
的一些基本知识,主要介绍了
网络
爬
虫
的使用工具和反
爬
虫
策略,这些东西在后续对我们的
爬
虫
学习会有所帮助,由于这几年断断续续的写过几个
爬
虫
项目,使用
Java
爬
虫
也是在前期,后期都是用 Python,最近突然间对
Java
爬
虫
又感兴趣了,所以准备写一个
爬
虫
系列博文,重新梳理一下
Java
网络
爬
虫
,算是对
Java
爬
虫
的一个总结,如果能帮助到想利用
Java
做
网络
爬
虫
的小伙伴,那就更棒啦。就是遵循被
爬
服务器的规则,不去影响被
爬
服务器的正常运行,不把被
爬
服务搞垮,这就是有 “道德” 的
爬
虫
。..
送:《
Java
网络
爬
虫
精解与实践》
今天收到了一份官方发来的消息:4年了,所以打算送出3本书。《
Java
网络
爬
虫
精解与实践》抽奖方式我放在文章末尾了。《
Java
网络
爬
虫
精解与实践》全面而系统地介绍与
网络
爬
虫
程序相关的理论知识,并包含大量的实践操作案例。《
Java
网络
爬
虫
精解与实践》共分为 8 章。第 1 章以自动化框架为基础,介绍
网络
爬
虫
程序的入门开发实践。第 2 章深入讲解
网页
内容的处理、解析技术和数据提取方法。第 3 章讨论验证码识别技术以及如何有效绕过验证码的策略。第 4 章涉及
网络
抓包技术及其对抗策略。
java
jsoup
网络
爬
虫
jsoup解析html
Java
爬
虫
Jsoup
爬
虫
jsoup例子
java
jsoup
网络
爬
虫
java
jsoup
网络
爬
虫
学习例子(一)抓取豆瓣电影名称+推荐星级
java
jsoup
网络
爬
虫
学习例子(二)只抓取豆瓣电影5星(力荐)电影名称
java
jsoup
网络
爬
虫
学习例子(三)抓取豆瓣电影海报图片 下载到本地
java
jsoup
网络
爬
虫
学习例子(四)抓取
网页
连接插入mysql数据库
java
...
Java
51,411
社区成员
86,052
社区内容
发帖
与我相关
我的任务
Java
Java相关技术讨论
复制链接
扫一扫
分享
社区描述
Java相关技术讨论
java
spring boot
spring cloud
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章