-
Python爬虫实战之爬取网站全部图片(一)
2018-09-02 12:28:21Python爬虫实战之爬取网站全部图片(二) 传送门: https://blog.csdn.net/qq_33958297/article/details/89388556 爬取网址: http://www.meizitu.com/a/more_1.html 爬取地址:...Python爬虫实战之通过ajax获得图片地址实现全站图片下载(三)
一.获得图片地址 和 图片名称
1.进入网址之后
按F12 打开开发人员工具点击elemnts
2.点击下图的小箭头 选择主图中的任意一个图片 那我们这里点击第一个 图片
3.显示控制台 为了验证xpath是否正确
4.通过xpath获得a的href 和 title.
(请放大看)我们看到 他提示的是有10个 我们回到网站中看一下 在主页上数一下 他确实是10个 也就是说 我们获得的href 和title是没有任何问题的 那么留着为我们后面使用.
5.我们还需要访问这个链接的请求头的信息 以备后面操作的时候来使用
这里可以看到 没有什么特别的请求头
6.获得每套图里的 所有图片.这也是我们的目的所在 不然前面那么多工序不是浪费吗。
可以看到 我们获得了11个链接地址 不要被源码中的文字所迷惑
7.获得相应的请求头
可以发现 需要注意的只有一个字段Referer 这里的地址就是我们访问这个页面进来的时候的那个地址 只要把那个地址给上就行了
8.对于404的处理 如果出现了404那就只有重新请求了
二.编写python代码实现爬取.
1.需要用到的库有:
Requests lxml
2.IDE : pycharm
3.python 版本: 2.7.15
下载地址: https://download.csdn.net/download/qq_33958297/12195656
-
Python爬虫100例教程导航帖(已完结)
2019-01-08 23:40:01Python爬虫入门教程导航,目标100篇。 本系列博客争取把爬虫入门阶段的所有内容都包含住,需要你有较好的Python基础知识,当然你完全零基础也可以观看本系列博客。 Python爬虫入门教程,加油!Python爬虫入门教程导航,已经完结啦,以后的时间不定期补番。
本系列博客争取把爬虫入门阶段的所有内容都包含住,需要你有较好的 Python 基础知识,当然你完全零基础也可以观看本系列博客。
Python 爬虫入门教程,加油!
基础篇,包含多线程爬虫
1. Python爬虫入门教程 1-100 CentOS环境安装
4. Python爬虫入门教程 4-100 美空网未登录图片爬取
5. Python爬虫入门教程 5-100 27270图片爬取
6. Python爬虫入门教程 6-100 蜂鸟网图片爬取之一
7. Python爬虫入门教程 7-100 蜂鸟网图片爬取之二
8. Python爬虫入门教程 8-100 蜂鸟网图片爬取之三
9. Python爬虫入门教程 9-100 河北阳光理政投诉板块
10. Python爬虫入门教程 10-100 图虫网多线程爬取
11. Python爬虫入门教程 11-100 行行网电子书多线程爬取
12. Python爬虫入门教程 12-100 半次元COS图爬取
13. Python爬虫入门教程 13-100 斗图啦表情包多线程爬取
14. Python爬虫入门教程 14-100 All IT eBooks多线程爬取
15. Python爬虫入门教程 15-100 石家庄政民互动数据爬取
16. Python爬虫入门教程 16-100 500px摄影师社区抓取摄影师数据
17. Python爬虫入门教程 17-100 CSDN博客抓取数据
18. Python爬虫入门教程 18-100 煎蛋网XXOO图片抓取
19. Python爬虫入门教程 19-100 51CTO学院IT技术课程抓取
20. Python爬虫入门教程 20-100 慕课网免费课程抓取
21. Python爬虫入门教程 21-100 网易云课堂课程数据抓取
22. Python爬虫入门教程 22-100 CSDN学院课程数据抓取
23. Python爬虫入门教程 23-100 石家庄链家租房数据抓取
24. Python爬虫入门教程 24-100 微医挂号网doctor数据抓取
25. Python爬虫入门教程 25-100 知乎文章图片爬取器之一
26. Python爬虫入门教程 26-100 知乎文章图片爬取器之二
pyspider
27. Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider
28. Python爬虫入门教程 28-100 虎嗅网文章数据抓取 pyspider
29. Python爬虫入门教程 29-100 手机APP数据抓取 pyspider
scrapy
30. Python爬虫入门教程 30-100 高考派大学数据抓取 scrapy
31. Python爬虫入门教程 31-100 36氪(36kr)数据抓取 scrapy
32. Python爬虫入门教程 32-100 B站博人传评论数据抓取 scrapy
33. Python爬虫入门教程 33-100 《海王》评论数据抓取 scrapy
34. Python爬虫入门教程 34-100 掘金网全站用户爬虫 scrapy
35. Python爬虫入门教程 35-100 知乎网全站用户爬虫 scrapy
36. Python爬虫入门教程 36-100 酷安网全站应用爬虫 scrapy
37. Python爬虫入门教程 37-100 云沃客项目外包网数据爬虫 scrapy
38. Python爬虫入门教程 38-100 教育部高校名单数据爬虫 scrapy
39. Python爬虫入门教程 39-100 天津市科技计划项目成果库数据抓取 scrapy
40. Python爬虫入门教程 40-100 博客园Python相关40W博客抓取 scrapy
手机抓取部分
41. Python爬虫入门教程 41-100 Fiddler+夜神模拟器+雷电模拟器配置手机APP爬虫部分
42. Python爬虫入门教程 42-100 爬取儿歌多多APP数据-手机APP爬虫部分
43. Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分
44. Python爬虫入门教程 44-100 Charles的安装与使用-手机APP爬虫部分
45. Python爬虫入门教程 45-100 Charles抓取兔儿故事-下载小猪佩奇故事-手机APP爬虫部分
46. Python爬虫入门教程 46-100 Charles抓取手机收音机-手机APP爬虫部分
47. Python爬虫入门教程 47-100 mitmproxy安装与安卓模拟器的配合使用-手机APP爬虫部分
48. Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分
49. Python爬虫入门教程 49-100 Appium安装+操作51JOB_APP(模拟手机操作之一)手机APP爬虫
爬虫进阶部分
50. Python爬虫入门教程 50-100 Python3爬虫爬取VIP视频-Python爬虫6操作
51. Python爬虫入门教程 51-100 Python3爬虫通过m3u8文件下载ts视频-Python爬虫6操作
52. Python爬虫入门教程 52-100 Python3爬虫获取博客园文章定时发送到邮箱
53. Python爬虫入门教程 53-100 Python3爬虫获取三亚天气做旅游参照
54. Python爬虫入门教程 54-100 博客园等博客网站自动评论器
验证码识别技术
55. Python爬虫入门教程 55-100 python爬虫高级技术之验证码篇
56. Python爬虫入门教程 56-100 python爬虫高级技术之验证码篇2-开放平台OCR技术
57. Python爬虫入门教程 57-100 python爬虫高级技术之验证码篇3-滑动验证码识别技术
58. Python爬虫入门教程 58-100 python爬虫高级技术之验证码篇4-极验证识别技术之一
59. Python爬虫入门教程 59-100 python爬虫高级技术之验证码篇5-极验证识别技术之二
60. Python爬虫入门教程 60-100 python识别验证码,阿里、腾讯、百度、聚合数据等大公司都这么干
反爬虫技术
61. Python爬虫入门教程 61-100 写个爬虫碰到反爬了,动手破坏它!
62. Python爬虫入门教程 62-100 30岁了,想找点文献提高自己,还被反爬了,Python搞起,反爬第2篇
63. Python爬虫入门教程 63-100 Python字体反爬之一,没办法,这个必须写,反爬第3篇
64. Python爬虫入门教程 64-100 反爬教科书级别的网站-汽车之家,字体反爬之二
65. Python爬虫入门教程 65-100 爬虫与反爬虫的修罗场,点评网站,字体反爬之三
66. Python爬虫入门教程 66-100 对微博登录好奇嘛,用Python试试
67. Python爬虫入门教程 67-100 Python爬虫摆脱控制台,开始走上台面
68. Python爬虫入门教程 68-100 一招解决爬虫程序卡死问题
69. Python爬虫入门教程 69-100 哪些年我们碰到的懒加载
70. Python爬虫入门教程 70-100 爬虫原理应用到多种场景,Python下载B站视频
71. Python爬虫入门教程 71-100 续上篇,python爬虫爬取B站视频
分布式爬虫技术
72. Python爬虫入门教程 72-100 分布式爬虫初步解析-配好环境肝完一半
73. Python爬虫入门教程 73-100 Python分布式爬虫顶级教程
74. Python爬虫入门教程 74-100 Python分布式夯实,夯实,还是**夯实
75. Python爬虫入门教程 75-100 celery分布式爬虫抓取豆瓣那些书
76. Python爬虫入门教程 76-100 用Celery继续搞定分布式爬虫
爬虫高级扩展部分
77. Python爬虫入门教程 77-100 增量爬虫不得不说的故事
78. Python爬虫入门教程 78-100 用Scrapy+BloomFilter再写个增量爬虫
79. Python爬虫入门教程 79-100 Python Portia爬虫框架-在Win7里面配置起来
80. Python爬虫入门教程 80-100 Python 玩转NewSpaper爬虫框架
81. Python爬虫入门教程 81-100 小众爬虫框架looter,框架作者竟然在官方手册开车
82. Python爬虫入门教程 82-100 在windows搭建scrapyd跑scrapy爬虫
83. Python爬虫入门教程 83-100 scrapyd配合scrapydweb跑scrapy爬虫,名称有点套娃
84. Python爬虫入门教程 84-100 通过<老家伙>spiderkeeper运行scrapy爬虫
85. Python爬虫入门教程 85-100 五年Python爬虫工程师,开发常用工具清单大放送
86. Python爬虫入门教程 86-100 Python爬虫框架在多来一个Ruia,解决问题的途径再次增多
87. Python爬虫入门教程 87-100 glidedsky网站爬虫解析,爬虫闯关第一篇
88. Python爬虫入门教程 88-100 Web Scraper 不用一行代码就能学会的爬虫程序
89. Python爬虫入门教程 89-100 定个小目标,先用Python爬个一亿B站用户
90. Python爬虫入门教程 90-100 凌晨5点的CSDN自动签到器,用Python爬虫干点闲事
帮粉丝写爬虫
91. Python爬虫入门教程 91-100 帮粉丝写Python爬虫之【河北单招学校信息爬虫】
92. Python爬虫入门教程 92-100 帮粉丝写Python爬虫之【新浪微博热榜爬虫+邮箱定时发送】
93. Python爬虫入门教程 93-100 帮粉丝写Python爬虫之【获取CSDN周榜所有大佬的收费专栏】
94. Python爬虫入门教程 94-100 帮粉丝写Python爬虫之【微信读书书籍信息爬取】
95. Python爬虫入门教程 95-100 帮粉丝写Python爬虫之【全网通用评论爬虫】
96. Python爬虫入门教程 96-100 帮粉丝写Python爬虫之【寻找最美女主播】
97. Python爬虫入门教程 97-100 帮粉丝写Python爬虫之【双色球预测前置条件】
98. Python爬虫入门教程 98-100 帮粉丝写 Python 爬虫之【2020秋季最难的事--约不上的疫苗】
-
32个Python爬虫项目让你一次吃到撑
2017-08-23 15:09:07今天为大家整理了32个Python爬虫项目。 整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心。所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)O WechatSogou [1]- 微信公众号爬虫。基于搜狗微信搜索的...===========================
若出现链接失效,请留言会及时修复
===========================
今天为大家整理了32个Python爬虫项目。
整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心。所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)OWechatSogou [1]- 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。
DouBanSpider [2]- 豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet ,采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封。
zhihu_spider [3]- 知乎爬虫。此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo
bilibili-user [4]- Bilibili用户爬虫。总数据数:20119918,抓取字段:用户id,昵称,性别,头像,等级,经验值,粉丝数,生日,地址,注册时间,签名,等级与经验值等。抓取之后生成B站用户数据报告。
SinaSpider [5]- 新浪微博爬虫。主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录,可通过多账号登录来防止新浪的反扒。主要使用 scrapy 爬虫框架。
distribute_crawler [6]- 小说下载分布式爬虫。使用scrapy,Redis, MongoDB,graphite实现的一个分布式网络爬虫,底层存储MongoDB集群,分布式使用Redis实现,爬虫状态显示使用graphite实现,主要针对一个小说站点。
CnkiSpider [7]- 中国知网爬虫。设置检索条件后,执行src/CnkiSpider.py抓取数据,抓取数据存储在/data目录下,每个数据文件的第一行为字段名称。
LianJiaSpider [8]- 链家网爬虫。爬取北京地区链家历年二手房成交记录。涵盖链家爬虫一文的全部代码,包括链家模拟登录代码。
scrapy_jingdong [9]- 京东爬虫。基于scrapy的京东网站爬虫,保存格式为csv。
QQ-Groups-Spider [10]- QQ 群爬虫。批量抓取 QQ 群信息,包括群名称、群号、群人数、群主、群简介等内容,最终生成 XLS(X) / CSV 结果文件。
wooyun_public[11]-乌云爬虫。 乌云公开漏洞、知识库爬虫和搜索。全部公开漏洞的列表和每个漏洞的文本内容存在MongoDB中,大概约2G内容;如果整站爬全部文本和图片作为离线查询,大概需要10G空间、2小时(10M电信带宽);爬取全部知识库,总共约500M空间。漏洞搜索使用了Flask作为web server,bootstrap作为前端。
spider[12]- hao123网站爬虫。以hao123为入口页面,滚动爬取外链,收集网址,并记录网址上的内链和外链数目,记录title等信息,windows7 32位上测试,目前每24个小时,可收集数据为10万左右
findtrip [13]- 机票爬虫(去哪儿和携程网)。Findtrip是一个基于Scrapy的机票爬虫,目前整合了国内两大机票网站(去哪儿 + 携程)。
163spider [14] - 基于requests、MySQLdb、torndb的网易客户端内容爬虫
doubanspiders[15]- 豆瓣电影、书籍、小组、相册、东西等爬虫集 writen by Python
QQSpider [16]- QQ空间爬虫,包括日志、说说、个人信息等,一天可抓取 400 万条数据。
baidu-music-spider [17]- 百度mp3全站爬虫,使用redis支持断点续传。
tbcrawler[18]- 淘宝和天猫的爬虫,可以根据搜索关键词,物品id来抓去页面的信息,数据存储在mongodb。
stockholm [19]- 一个股票数据(沪深)爬虫和选股策略测试框架。根据选定的日期范围抓取所有沪深两市股票的行情数据。支持使用表达式定义选股策略。支持多线程处理。保存数据到JSON文件、CSV文件。
BaiduyunSpider[20]-百度云盘爬虫。
Spider[21]-社交数据爬虫。支持微博,知乎,豆瓣。
proxy pool[22]-Python爬虫代理IP池(proxy pool)。
music-163[23]-爬取网易云音乐所有歌曲的评论。
jandan_spider[24]-爬取煎蛋妹纸图片。
CnblogsSpider[25]-cnblogs列表页爬虫。
spider_smooc[26]-爬取慕课网视频。
CnkiSpider[27]-中国知网爬虫。
knowsecSpider2[28]-知道创宇爬虫题目。
aiss-spider[29]-爱丝APP图片爬虫。
SinaSpider[30]-动态IP解决新浪的反爬虫机制,快速抓取内容。
csdn-spider[31]-爬取CSDN上的博客文章。
ProxySpider[32]-爬取西刺上的代理IP,并验证代理可用性
2018.8.2更新:
webspider[33]-本系统是一个主要使用python3, celery和requests来爬取职位数据的爬虫,实现了定时任务,出错重试,日志记录,自动更改Cookies等的功能,并使用ECharts + Bootstrap 来构建前端页面,来展示爬取到的数据。
转载请注明来自华盟网,本文标题:《32个Python爬虫项目让你一次吃到撑》
-
python爬虫
2018-02-07 00:59:16#python网络爬虫 #通用网络爬虫(没有目的,爬去所有的URL) 聚焦网络爬虫(过滤无关的链接)#python数据分析与挖掘实战的正则表达式 #正则表达式 世界上信息非常多,而我们关注的信息有限。假如我们希望只提取出...一、正则表达式
#python网络爬虫 #通用网络爬虫(没有目的,爬去所有的URL) 聚焦网络爬虫(过滤无关的链接) #python数据分析与挖掘实战的正则表达式 #正则表达式 世界上信息非常多,而我们关注的信息有限。假如我们希望只提取出关注数据,此时可以通过一些表达式进行提取,正则表达式就是其中一种进行数据筛选的表达式。 #原子 #原子是正则表达式中最基本的组成单位,每个正则表达式中至少要包含一个原子。 #常见的原子类型有:普通字符作为原子,非打印字符作为原子,通用字符作为原子,原子表 import re pat="yue" #普通字符作为原子 string="http://yum.iqianyue.com" rst=re.search(pat,string) print(rst) pat1="\n" #\n \t #非打印字符作为原子 string1='''dsfjsdjf sdfsdfsdfsdf''' rst1=re.search(pat1,string1) print(rst1) pat2="\w\dpython\w" #\w 通用字符,匹配任意字母,数字,下划线 #\d 匹配任意一个十进制数 #\S 除了十进制数的任意 #|s 匹配空白字符 #\S 除了空白字符的任意字符 #\W 匹配任意一个除了字母,数字,下划线的东西 string2="hsdlfsga7pythonkdfshdskjf" rst2=re.search(pat2,string2) print(rst2) pat3="pyth[jsz]n" #原子表 定义一组平等的字符 string3="fsdjfpythjnjslkdfpythsnjfsjpythjsnfsd" rst3=re.search(pat3,string3) print(rst3) #元字符 #正则表达式中具有一些特殊含义的字符,比如重复N次前面的字符等 #. 匹配任意字符 #^ 匹配字符串中的开始位置 #$ 匹配字符串中结束的位置 #* 匹配0次 1次或者多次的前面的原子 #?匹配0次或者1次前面的原子 #+ 匹配一次或多次前面的原子 #{3} 前面的原子恰好出现了3次 并且连在一起的 #{n} 出现了n次 #{4,7} 至少出现4次 之多出现7次 {4,} #t|s 出现t或者s #() 提取某一个内容 pat4=".python..." string4="sjslkdjfpythonslfjshf" rst4=re.search(pat4,string4) print(rst4) pat5="python|php" string5="jfsdjphpjsljfspythonfsd" rst5=re.search(pat5,string5) print(rst5) #模式修正符 #可以在不改变正则表达式的情况下,通过模式修正符改变正则表达式的含义,从而实现一些匹配结果的调整等功能 #I 使正则表达式不区分大小写 #M 多行匹配 #L 本地化识别匹配 #U 根据Unicode解析字符 #S 让点也能匹配包括换行符 pat6="python" pat7="python" string6="sjljfaljafPythonsfjlsjfssfs" rst6=re.search(pat6,string6) print(rst6) rst7=re.search(pat7,string6,re.I) #模式修正符实例,不区分大小写 print(rst7) #贪婪模式和懒惰模式 #贪婪模式尽可能的多的去匹配 #懒惰模式尽可能少的去匹配 pat8="p.*y" #贪婪模式 更多的去覆盖 pat9="p.*?y" #懒惰模式 更精准的定位 string8="jlsjfhspythonslfjshdpy" rst8=re.search(pat8,string8) rst9=re.search(pat9,string8) print(rst8) print(rst9) #正则表达式函数 #正则表达式函数有re.match()函数,re.search()函数,全局匹配函数,re.sub()函数 #re.search() 从字符串中搜索出来 #re.match() 从头开始匹配,如果一开始没有,那么就返回None #全局匹配函数 #re.sub() 主要用于替换 string10="phskfhskjhfkjshfjksgjfyskjhfksdh" rst10=re.match(pat8,string10) print(rst10) rst11=re.compile(pat8).findall(string10) #全局搜索函数 显示所有满足条件的 后面用的最多 print(rst11) #常见正则表达式实例 #匹配.com .cn网址 pat="[a-zA-Z]+://[^\s]*[.com|.cn]" string='<a href="http://www.baidu.com">fjsljflds</a>' rst=re.compile(pat).findall(string) print(rst) #简单的爬虫,如何爬取csdn某个课程页面上的QQ群 pat="<p>(\d*?)</p>" import urllib.request data=urllib.request.urlopen("http://edu.csdn.net/huiyiCourse/detail/215").read() rst=re.compile(pat).findall(str(data)) print(rst) #作业:如何爬取豆瓣出版社列表并写入文件中 #豆瓣网址:https://read.douban.com/provider/all import urllib.request import re data=urllib.request.urlopen("https://read.douban.com/provider/all").read() data=data.decode("utf-8") pat='<div class="name">(.*?)</div>' mydata=re.compile(pat).findall(data) print(mydata) fh=open("/Users/xubin/myapp/pythonfile/出版社file4.txt","w") for i in range(0,len(mydata)): fh.write(mydata[i]+"\n") fh.close()
二、Urllib库
#python中Urllib库实战 #系统学习urllib模块,从urllib基础开始。学习urlretrieve(),urlcleanup(),info(),getcode(),geturl() import urllib.request #urlretrieve() 直接将一个网页爬到本地 urllib.request.urlretrieve("http://www.hellobi.com",filename="/Users/xubin/myapp/pythonfile/urlretrieve.html") #urlcleanup() 将urlretrieve产生的缓存,清空 urllib.request.urlcleanup() #info() 将一些基础的环境信息展示粗来 file=urllib.request.urlopen("http://www.hellobi.com") print(file.info()) #getcode() 获取访问url的状态码,返货200, print(file.getcode()) #geturl() 获取爬取得网址 print(file.geturl()) #超时设置 #爬取一个网页,需要时间。访问网页,网页长时间未响应,系统判断网页超时了,无法打开网页。 #服务器反应快设置2秒没反应未超时,如果服务器反应慢设置100秒没反应未超时,timeout超时时间为2 100 file=urllib.request.urlopen("http://www.hellobi.com",timeout=1) for i in range(0,10): try: file=urllib.request.urlopen("http://yum.iqianyue.com",timeout=0.1) data=file.read() print(len(data)) except Exception as e: print("出现异常:"+str(e)) #自动模拟http请求 #客户端如果要与服务器端进行通信,需要通过http请求进行,http请求有很多种 #主要涉及post,get两种方式,比如登录,搜索某些信息的时候会用到 #一般登录某个网站的时候,需要post请求 #一般搜索某些信息的时候,需要get请求 #在百度上搜索关键词,用python实现,需要用到请求,get get请求URL中有? #https://www.baidu.com/s?wd=python import urllib.request import re keywd="徐彬" keywd=urllib.request.quote(keywd) url="http://www.baidu.com/s?wd="+keywd #注意不能用https req=urllib.request.Request(url) data=urllib.request.urlopen(req).read() fh=open("/Users/xubin/myapp/pythonfile/百度python.html","wb") fh.write(data) fh.close() #post请求 比如需要登录用户 需要提交post请求 #http://passport.csdn.net/account/login 用户名:username 密码:password import urllib.request import urllib.parse url="https://passport.csdn.net/account/login" mydata=urllib.parse.urlencode({"username":"bingoxubin","password":"19900127LLBingo"}).encode("utf-8") req=urllib.request.Request(url,mydata) data=urllib.request.urlopen(req).read() fh=open("/Users/xubin/myapp/pythonfile/csdn登录界面.html","wb") fh.write(data) fh.close() ''' #爬取oa上的所有照片,存到OA照片.docx中 #遇到问题,目前所学,只能爬取单页的内容 import re import urllib.request data=urllib.request.urlopen("oa.epoint.com.cn").read() data=data.decode("utf-8") pat="" mydata=re.compile(pat).findall(data) fh=open("/Users/xubin/myapp/pythonfile/OA照片.docx","w") for i in range(0,len(mydata)): fh.write(mydata[i]+"\n") fh.close() '''
三、状态码
#python爬虫的异常处理 #爬虫遇到异常时就会直接崩溃停止运行,下次再运行时,又会从头开始。 #开发一个具有顽强生命力的爬虫,必须要进行异常处理。 #常见状态码以及含义 #301 Moved Permanently:重定向到新的URL,永久性 #302 Found:重定向到临时的URL,非永久性 #304 Not Modified:请求的资源未更新 #400 Bad Request:非法请求 #401 Unauthorized:请求未经授权 #403 Forbidden:禁止访问 #404 Not Found:没有找到对应页面 #500 Internal Server Error:服务器内部出现错误 #501 Not Implemented:服务器不支持实现请求所需要的功能 #异常处理的两个类URLError和HTTPError #HTTPError是URLError的子类,HTTPError有异常状态码及异常原因,而URLError没有异常状态码 ##URLError发生的原因主要有:1.连不上服务器。2.访问的URL不存在。3.没有网络。4.触发了HRRPError子类 import urllib.error import urllib.request try: urllib.request.urlopen("http://blog.csdn.net") except urllib.error.URLError as e: if hasattr(e,"code"): print(e.code) if hasattr((e,"reason")): print(e.reason)
四、伪装技术
#python爬虫的浏览器伪装技术 #爬取csdn博客,会返回403错误,因为对方服务器会对爬虫进行屏蔽,此时需要伪装成浏览器才能爬取 #浏览器伪装,一般通过报头进行。 import urllib.request url="http://blog.csdn.net/bingoxubin/article/details/78503370" headers=("User-Agent","浏览器中User-Agent的值") opener=urllib.request.build_opener() opener.add_handlers=[headers] data=opener.open(url).read() print(len(data))
五、爬新闻
#python爬虫实例 爬取新闻 #爬取新浪新闻首页中所有的新闻,爬到本地(http://news.sina.com.cn/) #实现过程,先爬首页,通过正则表达式获取所有新闻链接,然后依次爬各新闻,并存储到本地 import urllib.request import re data=urllib.request.urlopen("http://news.sina.com.cn/").read() data2=data.decode("utf-8","ignore") pat='href="(http://news.sina.com.cn/.*?)"' allurl=re.compile(pat).findall(data2) for i in range(0,10): try: print("第"+str(i)+"次爬取") thisurl=allurl[i] file="/Users/xubin/myapp/pythonfile/sina/"+str(i)+".html" urllib.request.urlretrieve(thisurl,file) print("------成功-------") except urllib.error.URLError as e: if hasattr(e,"code"): print(e.code) if hasattr(e,"reason"): print(e.reason)
-
PYTHON爬虫
2020-03-22 10:52:06PYTHON爬虫爬虫的概念通用爬虫原理聚焦爬虫——根据特定的需求,抓取指定的数据爬取步骤开发环境课程内容 爬虫的概念 爬虫可分为: 通用爬虫:百度、360、搜狐、谷歌、必应… 聚焦爬虫: 通用爬虫原理 抓取网页 ... -
python 爬虫 中国大学2020排行榜数据爬取并保存在数据库
2020-11-18 09:52:07/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2020/11/18 8:21 # @Author : huni # @File : 大学排名.py # @Software: PyCharm import requests from lxml import etree import sqlite3 #获取数据解析... -
Python爬虫超详细讲解(零基础入门,老年人都看的懂)
2020-07-13 11:16:24关于Python爬虫的超详细讲解,用例子来给大家一步步分析爬虫的代码原理,由浅入深,老年人来了,我也给你整明白。 -
Python爬虫入门项目
2017-12-25 16:26:21Python是什么 Python是著名的“龟叔”Guido van Rossum在1989年圣诞节期间,为了打发无聊的圣诞节而编写的一个编程语言。 创始人Guido van Rossum是BBC出品英剧Monty Python’s Flying Circus(中文:蒙提·派森的... -
Python爬虫案例
2019-09-15 16:11:56Python爬虫案例,Python爬虫案例,Python爬虫案例,Python爬虫案例,Python爬虫案例Python爬虫案例,Python爬虫案例Python爬虫案例Python爬虫案例Python爬虫案例Python爬虫案例 -
Python爬虫入门教程 99-100 Python爬虫在线服务大全
2020-10-27 20:38:13python爬虫不能一味的蛮干,有时候借助第三方提供的工具或者服务,快速达成爬取目标,不失为一种奇妙的解决技巧。 -
我的第一个Python爬虫——谈心得
2018-03-30 19:24:26相信各大高校应该都有本校APP或超级课程表之类的软件,在信息化的时代能快速收集/查询自己想要的咨询也是种很重要的能力,所以记下了这篇博客,用于总结我所学到的东西,以及用于记录我的第一个爬虫的初生。... -
Python爬虫,高清美图我全都要(彼岸桌面壁纸)
2020-03-30 11:13:49爬取彼岸桌面网站较为简单,用到了requests、lxml、Beautiful Soup4 -
python 爬虫 睡不着觉听音频 全站爬取所有音频内容
2020-11-28 15:04:39/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2020/11/27 18:33 # @Author : huni # @File : 全站音频.py # @Software: PyCharm from threading import Thread #多线程的包 from queue import Queue #... -
python爬虫学习系列
2018-12-03 09:15:10Python爬虫(1):基本原理Python爬虫(2):Requests的基本用法Python爬虫(3):Requests的高级用法Python爬虫(4):Beautiful Soup的常用方法Python爬虫(5):豆瓣读书练手爬虫Python爬虫(6):煎蛋网全站妹子图爬虫Python爬虫(7... -
京东口罩爬虫,到货通知爬虫,自动下单爬虫、python爬虫第二篇
2020-02-05 06:22:23京东口罩爬虫,到货通知爬虫,自动下单爬虫第二篇功能效果展示无货展示有货展示撸代码修改的地方邮箱修改口罩链接获取方式自动下单所需Cookie获取 预祝大家都能抢到口罩,请大家适量购买 第一篇 马上上班了,回来的... -
小白学 Python 爬虫(25):爬取股票信息
2019-12-24 08:43:56人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)...小白学 Python 爬虫(6):前置准备(... -
Python爬虫入门教程 96-100 帮粉丝写Python爬虫之【寻找最美女主播】
2020-10-13 17:29:45对于Python爬虫爱好者来说,寻找美丽的姑娘是最喜欢做的事情之一了 -
Python爬虫入门教程 94-100 帮粉丝写Python爬虫之【微信读书书籍信息爬取】
2020-09-29 10:17:07一个小爬虫,爬取微信读书 书籍信息,简单揭示Python爬虫真谛 -
python爬虫入门教程(二):开始一个简单的爬虫
2017-09-12 15:02:21python爬虫入门教程,介绍编写一个简单爬虫的过程。 -
python 爬虫之selenium可视化爬虫
2020-08-05 19:52:11一文带你了解Python爬虫(一)——基本原理介绍 一文带你了解Python爬虫(二)——四种常见基础爬虫方法介绍 之所以把selenium爬虫称之为可视化爬虫 主要是相较于前面所提到的几种网页解析的爬虫方式 selenium爬虫... -
Python爬虫的用途
2018-08-16 14:02:03Python爬虫是用Python编程语言实现的网络爬虫,主要用于网络数据的抓取和处理,相比于其他语言,Python是一门非常适合开发网络爬虫的编程语言,大量内置包,可以轻松实现网络爬虫功能。 Python爬虫可以做的事情很多... -
Python进阶(二十)-Python爬虫实例讲解
2017-03-26 10:15:47Python进阶(二十)-Python爬虫实例讲解 本篇博文主要讲解Python爬虫实例,重点包括爬虫技术架构,组成爬虫的关键模块:URL管理器、HTML下载器和HTML解析器。爬虫简单架构 程序入口函数(爬虫调度段)#coding:utf8 ... -
Python爬虫入门教程 50-100 Python3爬虫爬取VIP视频-Python爬虫6操作
2019-02-14 10:42:29原计划继续写一下关于手机APP的爬虫,结果发现夜神模拟器总是卡死,比较懒,不想找原因了,哈哈,所以接着写后面的博客了,从50篇开始要写几篇python爬虫的骚操作,也就是用Python3通过爬虫实现一些小工具。... -
Python爬虫入门教程 73-100 Python分布式爬虫顶级教程
2020-07-10 10:55:05Python爬虫百例教程之 Python分布式爬虫顶级教程 -
Python爬虫教程-05-python爬虫实现百度翻译
2018-08-11 20:48:39使用python爬虫实现百度翻译功能 python爬虫实现百度翻译: python解释器【模拟浏览器】,发送【post请求】,传入待【翻译的内容】作为参数,获取【百度翻译的结果】 通过开发者工具,获取发送请求的地址 提示: ... -
Python爬虫入门教程 93-100 帮粉丝写Python爬虫之【获取CSDN周榜所有大佬的收费专栏】
2020-09-23 22:14:18帮粉丝写Python爬虫之【获取CSDN周榜所有大佬的收费专栏】,做爬虫最终要的是什么?要到数据接口! -
Python爬虫入门教程 90-100 凌晨5点的CSDN自动签到器,用Python爬虫干点闲事
2020-09-16 07:58:39CSDN自动签到器,送给凌晨5点还没有下班的你,Python爬虫入门教程 90-100,爬虫百例教程 -
Python爬虫经常爬不到数据,或许你可以看一下小编的这篇文章
2020-05-07 10:34:30Python爬虫是一个神奇的东西,但是经常会面临爬不到数据等问题,今天,小编就教读者怎样解决这些问题,不过,或许讲到的面还不全面,希望大家理解。 -
Python爬虫入门教程 98-100 帮粉丝写 Python 爬虫之【2020秋季最难的事--约不上的疫苗】
2020-10-25 21:42:26今年秋天最难的事情是什么,流感疫苗打不着~打不着,在打不着就要感冒了!Python爬虫爬取疫苗数据。
-
蓝桥杯 填算式
-
YEP_ItemCore.zip
-
zhuangguizhuanjiav2.6.0.3_downcc.com.zip
-
深度学习-语音识别实战(Python).rar
-
Wide Deep Learning for Recommender Systems.pdf
-
linux基础入门和项目实战部署系列课程
-
SecureCRT 连接 GNS3/Linux 的安全精密工具
-
uniapp页面通讯
-
机器学习 BN层实现细节
-
Linux 用户和组管理练习
-
【布道者】Linux极速入门
-
Samba 服务配置与管理
-
简易贪吃蛇游戏.zip
-
shell从入门到精通.docx
-
wupinyanse.js
-
Powell算法原理以及相关代码-讲义代码类资源
-
poi按照排列规则输出图片
-
基于Kubernetes运行argoCD
-
php 判断字符串中是否包含另一个字符串
-
okex_swap_orderbook.BTCUSDT.20200415.csv.tar.gz