精华内容
下载资源
问答
  • 81个Python爬虫源代码

    2018-12-19 09:41:30
    81个Python爬虫源代码,内容包含新闻、视频、中介、招聘、图片资源等网站的爬虫资源
  • Python网络爬虫源代码

    2018-03-12 12:47:14
    Python网络爬虫源代码,从零开始学!!!!!!!!!!!
  • 81个Python爬虫开发源代码真实有效
  • 81个Python爬虫源代码+九款开源爬虫工具,81个Python爬虫源代码,内容包含新闻、视频、中介、招聘、图片资源等网站的爬虫资源
  • 简单的爬虫程序,以某小说网站的一个小说为例,对其进行爬取
  • 大学生项目实训python爬虫完整源代码.zip
  • python爬虫源代码

    2017-07-10 22:49:35
    python爬虫源代码
  • 课程项目:安居客Python爬虫源码,简单,通俗易懂,Linux课堂实验,数据爬取且爬取后文件整洁美观
  • 今天为大家整理了23个Python爬虫项目。整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心。所有链接指向GitHub,祝大家玩的愉快1、WechatSogou [1]– 微信公众号爬虫。基于搜狗微信搜索的微信...

    今天为大家整理了23个Python爬虫项目。整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心。所有链接指向GitHub,祝大家玩的愉快

    1、WechatSogou [1]– 微信公众号爬虫。

    基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。

    2、DouBanSpider [2]– 豆瓣读书爬虫。

    可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet ,采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封。

    3、zhihu_spider [3]– 知乎爬虫。

    此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo

    4、bilibili-user [4]– Bilibili用户爬虫。

    总数据数:20119918,抓取字段:用户id,昵称,性别,头像,等级,经验值,粉丝数,生日,地址,注册时间,签名,等级与经验值等。抓取之后生成B站用户数据报告。

    5、SinaSpider [5]– 新浪微博爬虫。

    主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录,可通过多账号登录来防止新浪的反扒。主要使用 scrapy 爬虫框架。

    6、distribute_crawler [6]– 小说下载分布式爬虫。

    使用scrapy,Redis, MongoDB,graphite实现的一个分布式网络爬虫,底层存储MongoDB集群,分布式使用Redis实现,爬虫状态显示使用graphite实现,主要针对一个小说站点。

    7、CnkiSpider [7]– 中国知网爬虫。

    设置检索条件后,执行src/CnkiSpider.py抓取数据,抓取数据存储在/data目录下,每个数据文件的第一行为字段名称。

    8、LianJiaSpider [8]– 链家网爬虫。

    爬取北京地区链家历年二手房成交记录。涵盖链家爬虫一文的全部代码,包括链家模拟登录代码。

    9、scrapy_jingdong [9]– 京东爬虫。

    基于scrapy的京东网站爬虫,保存格式为csv。

    10、QQ-Groups-Spider [10]– QQ 群爬虫。

    批量抓取 QQ 群信息,包括群名称、群号、群人数、群主、群简介等内容,最终生成 XLS(X) / CSV 结果文件。

    11、wooyun_public[11]-乌云爬虫。

    乌云公开漏洞、知识库爬虫和搜索。全部公开漏洞的列表和每个漏洞的文本内容存在MongoDB中,大概约2G内容;如果整站爬全部文本和图片作为离线查询,大概需要10G空间、2小时(10M电信带宽);爬取全部知识库,总共约500M空间。漏洞搜索使用了Flask作为web server,bootstrap作为前端。

    12、spider[12]– hao123网站爬虫。

    以hao123为入口页面,滚动爬取外链,收集网址,并记录网址上的内链和外链数目,记录title等信息,windows7 32位上测试,目前每24个小时,可收集数据为10万左右

    13、findtrip [13]– 机票爬虫(去哪儿和携程网)。

    Findtrip是一个基于Scrapy的机票爬虫,目前整合了国内两大机票网站(去哪儿 + 携程)。

    14、163spider [14] – 基于requests、MySQLdb、torndb的网易客户端内容爬虫

    15、doubanspiders[15]– 豆瓣电影、书籍、小组、相册、东西等爬虫集

    16、QQSpider [16]– QQ空间爬虫,包括日志、说说、个人信息等,一天可抓取 400 万条数据。

    17、baidu-music-spider [17]– 百度mp3全站爬虫,使用redis支持断点续传。

    18、tbcrawler[18]– 淘宝和天猫的爬虫,可以根据搜索关键词,物品id来抓去页面的信息,数据存储在mongodb。

    stockholm [19]– 一个股票数据(沪深)爬虫和选股策略测试框架。根据选定的日期范围抓19、取所有沪深两市股票的行情数据。支持使用表达式定义选股策略。支持多线程处理。保存数据到JSON文件、CSV文件。

    20、BaiduyunSpider[20]-百度云盘爬虫。

    21、Spider[21]-社交数据爬虫。支持微博,知乎,豆瓣。

    22、proxy pool[22]-Python爬虫代理IP池(proxy pool)。

    23、music-163[23]-爬取网易云音乐所有歌曲的评论。

    来源:全球人工智能

    作者:SFLYQ

    展开全文
  • 今天博主给大家带来了一份大礼,100个Python爬虫开源项目代码分享,都是完整的项目源码!!! 本文下面所有的爬虫项目都有详细的配套教程以及源码,都已经打包好上传到百度云了,百度云下载链接在文章结尾处! ...

    今天博主给大家带来了一份大礼,100个Python爬虫开源项目代码分享,都是完整的项目源码!!!

    本文下面所有的爬虫项目都有详细的配套教程以及源码,都已经打包好上传到百度云了,百度云下载链接在文章结尾处!

    大家自行获取即可~~~

    Python爬虫开源项目代码(一):入门级

    1. CentOS环境安装

    2. 和谐图网站爬取

    3. 美空网数据爬取

    4. 美空网未登录图片爬取

    5. 27270图片爬取

    6. 蜂鸟网图片爬取之一

    7. 蜂鸟网图片爬取之二

    8. 蜂鸟网图片爬取之三

    9. 河北阳光理政投诉板块

    10. Pyt图虫网多线程爬取

    11. 行行网电子书多线程爬取

    12. 半次元COS图爬取

    13. 斗图啦表情包多线程爬取

    14. All IT eBooks多线程爬取

    15. 石家庄政民互动数据爬取

    16. 500px摄影师社区抓取摄影师数据

    17. CSDN博客抓取数据

    18. 煎蛋网XXOO图片抓取

    19. 51CTO学院IT技术课程抓取

    20. 慕课网免费课程抓取

    21. 网易云课堂课程数据抓取

    22. CSDN学院课程数据抓取

    23. 石家庄链家租房数据抓取

    24. 微医挂号网doctor数据抓取

    25. 知乎文章图片爬取器之一

    26. 知乎文章图片爬取器之二

    Python爬虫开源项目代码(二):pyspider

    27. 微医挂号网专家团队数据抓取pyspider

    28. 虎嗅网文章数据抓取 pyspider

    29. 手机APP数据抓取 pyspider

    Python爬虫开源项目代码(三):scrapy

    30. 高考派大学数据抓取 scrapy

    31. 36氪(36kr)数据抓取 scrapy

    32. B站博人传评论数据抓取 scrapy

    33. 《海王》评论数据抓取 scrapy

    34. 掘金网全站用户爬虫 scrapy

    35. 知乎网全站用户爬虫 scrapy

    36. 酷安网全站应用爬虫 scrapy

    37. 云沃客项目外包网数据爬虫 scrapy

    38. 教育部高校名单数据爬虫 scrapy

    39. 天津市科技计划项目成果库数据抓取 scrapy

    40. 博客园Python相关40W博客抓取 scrapy

    Python爬虫开源项目代码(四):手机抓取相关

    41. Fiddler+夜神模拟器+雷电模拟器配置手机APP爬虫部分

    42. 爬取儿歌多多APP数据-手机APP爬虫部分

    43. 百思不得姐APP数据-手机APP爬虫部分

    44. Charles的安装与使用-手机APP爬虫部分

    45. Charles抓取兔儿故事-下载小猪佩奇故事-手机APP爬虫部分

    46. Charles抓取手机收音机-手机APP爬虫部分

    47. mitmproxy安装与安卓模拟器的配合使用-手机APP爬虫部分

    48. 使用mitmdump抓取手机惠农APP-手机APP爬虫部分

    49. Appium安装+操作51JOB_APP(模拟手机操作之一)手机APP爬虫

    Python爬虫开源项目代码(五):爬虫进阶部分

    50. Python3爬虫爬取VIP视频-Python爬虫6操作

    51. Python3爬虫通过m3u8文件下载ts视频-Python爬虫6操作

    52. Python3爬虫获取博客园文章定时发送到邮箱

    53. Python3爬虫获取三亚天气做旅游参照

    54. 博客园等博客网站自动评论器

    Python爬虫开源项目代码(六):验证码识别技术

    55. python爬虫高级技术之验证码篇

    56. python爬虫高级技术之验证码篇2-开放平台OCR技术

    57. python爬虫高级技术之验证码篇3-滑动验证码识别技术

    58. python爬虫高级技术之验证码篇4-极验证识别技术之一

    59. python爬虫高级技术之验证码篇5-极验证识别技术之二

    60. python识别验证码,阿里、腾讯、百度、聚合数据等大公司都这么干

    Python爬虫开源项目代码(七):反爬虫技术

    61. 写个爬虫碰到反爬了,动手破坏它!

    62. 30岁了,想找点文献提高自己,还被反爬了,Python搞起,反爬第2篇

    63. Python字体反爬之一,没办法,这个必须写,反爬第3篇

    64. 反爬教科书级别的网站-汽车之家,字体反爬之二

    65. 爬虫与反爬虫的修罗场,点评网站,字体反爬之三

    66. 对微博登录好奇嘛,用Python试试

    67. Python爬虫摆脱控制台,开始走上台面

    68. 一招解决爬虫程序卡死问题

    69. 哪些年我们碰到的懒加载

    70. 爬虫原理应用到多种场景,Python下载B站视频

    71. 续上篇,python爬虫爬取B站视频

    Python爬虫开源项目代码(八):分布式爬虫技术

    72. 分布式爬虫初步解析-配好环境肝完一半

    73. Python分布式爬虫顶级教程

    74. Python分布式夯实,夯实,还是**夯实

    75. celery分布式爬虫抓取豆瓣那些书

    76. 用Celery继续搞定分布式爬虫

    Python爬虫开源项目代码(九):爬虫高级扩展部分

    77.  增量爬虫不得不说的故事

    78. 用Scrapy+BloomFilter再写个增量爬虫

    79. Python Portia爬虫框架-在Win7里面配置起来

    80. Python 玩转NewSpaper爬虫框架

    81. 小众爬虫框架looter,框架作者竟然在官方手册开车

    82. 在windows搭建scrapyd跑scrapy爬虫

    83. scrapyd配合scrapydweb跑scrapy爬虫,名称有点套娃

    84. 通过<老家伙>spiderkeeper运行scrapy爬虫

    85. 五年Python爬虫工程师,开发常用工具清单大放送

    86. Python爬虫框架在多来一个Ruia,解决问题的途径再次增多

    87. glidedsky网站爬虫解析,爬虫闯关第一篇

    88. Web Scraper 不用一行代码就能学会的爬虫程序

    89. 定个小目标,先用Python爬个一亿B站用户

    90. 凌晨5点的CSDN自动签到器,用Python爬虫干点闲事

    91. 河北单招学校信息爬虫

    92. 新浪微博热榜爬虫+邮箱定时发送

    93. 获取CSDN周榜所有大佬的收费专栏

    94. 微信读书书籍信息爬取

    95. 全网通用评论爬虫

    96. 寻找最美女主播

    97. 双色球预测前置条件

    98. 2020秋季最难的事--约不上的疫苗

    99. Python爬虫在线服务大全

    100. 我用了800天,才成为爬虫领域的一个新人

    Python爬虫开源项目配套教程以及项目源码下载链接:
    https://docs.qq.com/doc/DTVJzZXh5TmJSR1V4https://docs.qq.com/doc/DTVJzZXh5TmJSR1V4

    希望本文这100个项目对大家有帮助哈,如果对你有帮助的话麻烦点赞收藏一下,谢谢~

    展开全文
  • 本书共8章,涵盖的内容有Python语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。本书所有...
  • python爬虫源代码2

    2017-07-10 22:52:56
    python爬虫源代码2
  • python爬虫源代码3

    2017-07-10 22:54:18
    python爬虫源代码3
  • python爬虫(附源码)

    千次阅读 2020-12-08 06:47:26
    ubuntu19.04、python3.xpython包:requests、bs4、beautifulsoup、re、urllib、lxml、os下载方式:$pip install [包名]ps:部分电脑未安装python-pip,报错后按照系统提示下载python-pip爬虫过程:1)模拟浏览器向...

    声明:本文内容皆来自网上

    环境:ubuntu19.04、python3.x

    python包:requests、bs4、beautifulsoup、re、urllib、lxml、os

    下载方式:$pip install [包名]

    ps:部分电脑未安装python-pip,报错后按照系统提示下载python-pip

    爬虫过程:

    1)模拟浏览器向目标网页发送请求

    2)接收响应

    3)解析,将响应转为网页代码输出

    4)查找代码中需要的部分

    5)处理

    代码实现:

    这里以爬取发表情(https://www.fabiaoqing.com/biaoqing)网页上的图片为例

    1、2) url = 'https://www.fabiaoqing.com/biaoqing' #目标网址

    response = requests.get(url)   #发送访问请求接收

    3)  soup= BeautifulSoup(response.content.decode('utf-8'), 'lxml')  #解析响应,此时soup是目标网页代码

    4)  gowl = str(soup.findAll('img'))  #查找所有图片,gowl即为图片url

    #由于我们仅需要其中的表情,所以需要对gowl再进行一次筛选。目标网页表情包url

    我们可以发现url分为.jpg和.gif,但它们前面都是http://w...sinaimg.cn/bmiddle/................................  #此处 . 表示匹配一个数字或字符。所以:

    picUrls = re.findall('http://w...sinaimg.cn/bmiddle/.................................jpg',gowl)

    picUrlst = re.findall('http://w...sinaimg.cn/bmiddle/.................................gif',gowl)

    #picUrls和picUrlst的和即为目标表情包

    5)然后下载图片

    imgName = 0

    for url in picUrls:

    r = requests.get(url)

    img = r.content

    with open(str(imgName)+".jpg",'wb') as f:

    f.write(img)

    imgName = imgName  +1

    imgNamet = len(picUrls)

    for urls in picUrlst:

    rt = requests.get(urls)

    imgt = rt.content

    with open(str(imgNamet)+".gif",'wb') as f:

    f.write(imgt)

    imgNamet = imgNamet  +1

    最后

    完整代码:

    #!/usr/bin/python3

    # -*- coding: utf-8 -*-

    import requests

    from bs4 import BeautifulSoup

    import re

    import urllib

    import lxml

    import os

    url = "https://www.fabiaoqing.com/biaoqing"

    response = requests.get(url) #发送请求

    soup = BeautifulSoup(response.content.decode('utf-8'), 'lxml') #解析

    gowl = str(soup.findAll('img')) #查找

    #print(gowl) #所有img

    picUrls = re.findall('http://w...sinaimg.cn/bmiddle/.................................jpg',gowl)

    picUrlst = re.findall('http://w...sinaimg.cn/bmiddle/.................................gif',gowl)

    #print picUrls,picUrlst #所有符合要求的图片

    #file_obj = open('goel', 'r+') #写入文件,goels是你创建的文档名称

    #file_obj.write(str(picUrls))

    imgName = 0

    for url in picUrls:

    r = requests.get(url)

    img = r.content

    with open(str(imgName)+".jpg",'wb') as f:

    f.write(img)

    imgName = imgName  +1

    imgNamet = len(picUrls)

    for urls in picUrlst:

    rt = requests.get(urls)

    imgt = rt.content

    with open(str(imgNamet)+".gif",'wb') as f:

    f.write(imgt)

    imgNamet = imgNamet  +1

    ps:这是我的第一次写爬虫,希望对此时阅读的你们有所帮助。如果文章或代码有所错误欢迎指出。也欢迎各位大神对代码进行简化。

    展开全文
  • 参考书籍:《用 Python 写网络...下载一个网页源代码最简单的形式使用的是 python 自带的库 urllib2import urllib2def download(url):print "downloading " , urlhtml = urllib2.urlopen(url).read()retu...

    参考书籍:《用 Python 写网络爬虫》

    当然你也可以自己百度搜索下载。

    一点感想

    书看一遍是不够的,温故而知新。

    下载一个网页源代码

    最简单的形式

    使用的是 python 自带的库 urllib2

    import urllib2

    def download(url):

    print "downloading " , url

    html = urllib2.urlopen(url).read()

    return html

    给定想要下载的 URL 即可下载其源代码。

    添加处理异常的功能

    当然很有可能在下载的过程中出现各种问题,导致出现问题,所以需要在上面的程序上扩展,处理异常的情况。

    import urllib2

    def download(url):

    print "downloading " , url

    try:

    html = urllib2.urlopen(url).read()

    except urllib2.URLErrors as e:

    print "download error: " , e.reason

    html = None

    return html

    完整的程序如下:

    # _*_ encoding:utf-8 _*_

    '''

    Created on 2017年8月4日

    @author: wangs0622

    '''

    import urllib2

    def download(url):

    print "downloading " , url

    try:

    html = urllib2.urlopen(url).read()

    except urllib2.URLError as e:

    print "download error: " , e.reason

    html = None

    return html

    if __name__ == '__main__':

    download('http://www.wangs0622.com/dex')

    运行的结果如下:

    downloading http://www.wangs0622.com/dex

    download error: Not Found

    添加重试下载功能

    有的时候,下载出现了问题,可能是但是网络不好的原因,也有可能是页面不存在的原因,一般会返回 4xx 和 5xx 类型的错误代码。 最常见的莫过于 404,即表示网页未找到。(为什么网页为找到,使用的是 404 代码呢? 据说是有历史原因的,有兴趣的话可以去百度。)

    正常情况下,返回 5xx 错误代码的话,是因为网络的原因,并不是网页不存在,这个时候,我们可以尝试重新下载这个网页,所以,就有了如下的改进版本。

    import urllib2

    def download(url, num_retries = 5):

    '''

    function: 下载网页源代码,如果遇到 5xx 错误状态,则继续尝试下载,知道下载 5 次为止。

    '''

    print "downloading " , url

    try:

    html = urllib2.urlopen(url).read()

    except urllib2.URLError as e:

    print "download error: " , e.reason

    html = None

    if num_retries > 0:

    if hasattr(e,'code') and 500 <= e.code < 600:

    return download(url, num_retries-1)

    return html

    一个有用的网站

    小结

    截止目前的 download() 函数已经具备健全的下载网页源代码的功能,可以应付一般情况下的使用了。

    后面还需要介绍为 download() 函数添加代理和下载延时功能,之后再介绍 链接爬虫。我想法是在介绍这些功能的同时我们实践爬取一个网站。相信学爬虫的都是广大男士,后面实践爬取的网站是:http://www.mm131.com 我们的目标是将其中的图片下载下来。

    展开全文
  • 在开始制作爬虫前,我们应该做好前期准备工作,找到要爬的网站,然后查看它的源代码我们这次爬豆瓣美女网站,网址为:用到的工具:pycharm,这是它的图标?...博文来自:zhang740000的博客Python新手写出漂亮的爬虫...
  • python爬虫基础源代码

    万次阅读 多人点赞 2020-05-12 15:45:07
    爬取百度网页源代码: import requests r=requests.get("http://www.baidu.com") r.status_code r.encoding r.encoding=r.apparent_encoding r.text 结果展示: 2.爬取网页的通用代码框架:(这里继续选用百度...
  • 网络爬虫源代码集锦

    2018-03-07 16:02:05
    这是“用python写网络爬虫源码文件”,里面包含书中所有的例子程序,是你编写网络爬虫的好例子!
  • 自己练手的代码爬虫小程序,爬一些鬼故事。。。自己练手的代码爬虫小程序,爬一些鬼故事。。。自己练手的代码爬虫小程序,爬一些鬼故事。。。自己练手的代码爬虫小程序,爬一些鬼故事。。。
  • python知乎用户评论爬虫源代码 最完整的爬虫源码 python知乎用户评论爬虫源代码 最完整的爬虫源码
  • python大作业实验报告+源代码--爬虫【完美搞定大作业】 python大作业分享--30多个项目任你选(由于上传大小限制分多个文件上传。爬虫https://download.csdn.net/download/dhyuan_88/19651195小游戏:...
  • python大作业编程源代码+实验报告--爬虫【完美搞定大作业】 python大作业--爬虫(完美应付大作业) python大作业分享--30多个项目任你选(由于上传大小限制分多个文件上传。爬虫...
  • python爬虫100例教程+源代码【基础案例】 python爬虫100例源代码、python基础案例100 Python基础案例 入门级别
  • 在开始制作爬虫前,我们应该做好前期准备工作,找到要爬的网站,然后查看它的源代码我们这次爬豆瓣美女网站,网址为:用到的工具:pycharm,这是它的图标...博文来自:zhang740000的博客Python新手写出漂亮的爬虫代码...
  • python爬虫项目开发实战高清pdf加源代码包含各章节的源代码,适合新手入门练习,包会
  • 本资源免费,成为粉丝即可下载,供大家使用!!
  • 通过爬虫,爬取5000章以上的网络小说。通过爬取网站上的某一本小说,输出文件为url文件...包括源代码和实验报告(实验背景、实验环境、实验设计(模型方法介绍+解题思路+流程图+源代码)、结果与性能分析、心得与体会)
  • Python---:Python爬虫开发从入门到实战(微课版)-源代码

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 41,271
精华内容 16,508
关键字:

python爬虫源代码大全

python 订阅
爬虫 订阅