• Python爬虫入门教程导航,目标100篇。 本系列博客争取把爬虫入门阶段的所有内容都包含住,需要你有较好的Python基础知识,当然你完全零基础也可以观看本系列博客。 Python爬虫入门教程,加油! 1.Python爬虫...

    Python爬虫入门教程导航,目标100篇。

    本系列博客争取把爬虫入门阶段的所有内容都包含住,需要你有较好的Python基础知识,当然你完全零基础也可以观看本系列博客。

    Python爬虫入门教程,加油!

     

    1. Python爬虫入门教程 1-100 CentOS环境安装

    2. Python爬虫入门教程 2-100 妹子图网站爬取

    3. Python爬虫入门教程 3-100 美空网数据爬取

    4. Python爬虫入门教程 4-100 美空网未登录图片爬取

    5. Python爬虫入门教程 5-100 27270图片爬取

    6. Python爬虫入门教程 6-100 蜂鸟网图片爬取之一

    7. Python爬虫入门教程 7-100 蜂鸟网图片爬取之二

    8. Python爬虫入门教程 8-100 蜂鸟网图片爬取之三

    9. Python爬虫入门教程 9-100 河北阳光理政投诉板块

    10. Python爬虫入门教程 10-100 图虫网多线程爬取

    11. Python爬虫入门教程 11-100 行行网电子书多线程爬取

    12. Python爬虫入门教程 12-100 半次元COS图爬取

    13. Python爬虫入门教程 13-100 斗图啦表情包多线程爬取

    14. Python爬虫入门教程 14-100 All IT eBooks多线程爬取

    15. Python爬虫入门教程 15-100 石家庄政民互动数据爬取

    16. Python爬虫入门教程 16-100 500px摄影师社区抓取摄影师数据

    17. Python爬虫入门教程 17-100 CSDN博客抓取数据

    18. Python爬虫入门教程 18-100 煎蛋网XXOO图片抓取

    19. Python爬虫入门教程 19-100 51CTO学院IT技术课程抓取

    20. Python爬虫入门教程 20-100 慕课网免费课程抓取

    21. Python爬虫入门教程 21-100 网易云课堂课程数据抓取

    22. Python爬虫入门教程 22-100 CSDN学院课程数据抓取

    23. Python爬虫入门教程 23-100 石家庄链家租房数据抓取

    24. Python爬虫入门教程 24-100 微医挂号网医生数据抓取

    25. Python爬虫入门教程 25-100 知乎文章图片爬取器之一

    26. Python爬虫入门教程 26-100 知乎文章图片爬取器之二

    27. Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider

    28. Python爬虫入门教程 28-100 虎嗅网文章数据抓取 pyspider

    29. Python爬虫入门教程 29-100 手机APP数据抓取 pyspider

    30. Python爬虫入门教程 30-100 高考派大学数据抓取 scrapy

    31. Python爬虫入门教程 31-100 36氪(36kr)数据抓取 scrapy

    32. Python爬虫入门教程 32-100 B站博人传评论数据抓取 scrapy

    33. Python爬虫入门教程 33-100 《海王》评论数据抓取 scrapy

    34. Python爬虫入门教程 34-100 掘金网全站用户爬虫 scrapy

    35. Python爬虫入门教程 35-100 知乎网全站用户爬虫 scrapy

    36. Python爬虫入门教程 36-100 酷安网全站应用爬虫 scrapy

    37. Python爬虫入门教程 37-100 云沃客项目外包网数据爬虫 scrapy

    38. Python爬虫入门教程 38-100 教育部高校名单数据爬虫 scrapy

    39. Python爬虫入门教程 39-100 天津市科技计划项目成果库数据抓取 scrapy

    40. Python爬虫入门教程 40-100 博客园Python相关40W博客抓取 scrapy

    41. Python爬虫入门教程 41-100 Fiddler+夜神模拟器+雷电模拟器配置手机APP爬虫部分

    42. Python爬虫入门教程 42-100 爬取儿歌多多APP数据-手机APP爬虫部分

    43. Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分

    44. Python爬虫入门教程 44-100 Charles的安装与使用-手机APP爬虫部分

    45. Python爬虫入门教程 45-100 Charles抓取兔儿故事-下载小猪佩奇故事-手机APP爬虫部分

    46.  Python爬虫入门教程 46-100 Charles抓取手机收音机-手机APP爬虫部分

    47. Python爬虫入门教程 47-100 mitmproxy安装与安卓模拟器的配合使用-手机APP爬虫部分

    48. Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分

    49. Python爬虫入门教程 49-100 Appium安装+操作51JOB_APP(模拟手机操作之一)手机APP爬虫

    50. Python爬虫入门教程 50-100 Python3爬虫爬取VIP视频-Python爬虫6操作

    51. Python爬虫入门教程 51-100 Python3爬虫通过m3u8文件下载ts视频-Python爬虫6操作

    52. Python爬虫入门教程 52-100 Python3爬虫获取博客园文章定时发送到邮箱

    53. Python爬虫入门教程 53-100 Python3爬虫获取三亚天气做旅游参照

    54. Python爬虫入门教程 54-100 博客园等博客网站自动评论器

    55. Python爬虫入门教程 55-100 python爬虫高级技术之验证码篇

    56. Python爬虫入门教程 56-100 python爬虫高级技术之验证码篇2-开放平台OCR技术

    57. Python爬虫入门教程 57-100 python爬虫高级技术之验证码篇3-滑动验证码识别技术

    58. Python爬虫入门教程 58-100 python爬虫高级技术之验证码篇4-极验证识别技术之一

    59. Python爬虫入门教程 59-100 python爬虫高级技术之验证码篇5-极验证识别技术之二

    60. Python爬虫入门教程 60-100 python识别验证码,阿里、腾讯、百度、聚合数据等大公司都这么干

    61. Python爬虫入门教程 61-100 写个爬虫碰到反爬了,动手破坏它!

    62. Python爬虫入门教程 62-100 30岁了,想找点文献提高自己,还被反爬了,Python搞起,反爬第2篇

    63. Python爬虫入门教程 63-100 Python字体反爬之一,没办法,这个必须写,反爬第3篇

    64. Python爬虫入门教程 64-100 反爬教科书级别的网站-汽车之家,字体反爬之二

    65. Python爬虫入门教程 65-100 爬虫与反爬虫的修罗场,点评网站,字体反爬之三

    66. Python爬虫入门教程 66-100 对微博登录好奇嘛,用Python试试

    67. Python爬虫入门教程 67-100 Python爬虫摆脱控制台,开始走上台面

    68. Python爬虫入门教程 68-100 一招解决爬虫程序卡死问题

    69. Python爬虫入门教程 69-100 哪些年我们碰到的懒加载

    70. Python爬虫入门教程 70-100 爬虫原理应用到多种场景,Python下载B站视频

    71. Python爬虫入门教程 71-100 续上篇,python爬虫爬取B站视频

    展开全文
  • 此文属于入门级级别的爬虫,老司机们就不用看了。 本次主要是爬取网易新闻,包括新闻标题、作者、来源、发布时间、新闻正文。 首先我们打开163的网站,我们随意选择一个分类,这里我选的分类是国内新闻。然后鼠标...

    此文属于入门级级别的爬虫,老司机们就不用看了。

    本次主要是爬取网易新闻,包括新闻标题、作者、来源、发布时间、新闻正文

    首先我们打开163的网站,我们随意选择一个分类,这里我选的分类是国内新闻。然后鼠标右键点击查看源代码,发现源代码中并没有页面正中的新闻列表。这说明此网页采用的是异步的方式。也就是通过api接口获取的数据。

    那么确认了之后可以使用F12打开谷歌浏览器的控制台,点击Network,我们一直往下拉,发现右侧出现了:"… special/00804KVA/cm_guonei_03.js? … "之类的地址,点开Response发现正是我们要找的api接口。

    在这里插入图片描述
    可以看到这些接口的地址都有一定的规律:“cm_guonei_03.js”、 “cm_guonei_04.js”,那么就很明显了:

    http://temp.163.com/special/00804KVA/cm_guonei_0(*).js

    上面的连接也就是我们本次抓取所要请求的地址。
    接下来只需要用到的python的两个库:

    1. requests
    2. json
    3. BeautifulSoup

    requests库就是用来进行网络请求的,说白了就是模拟浏览器来获取资源。
    由于我们采集的是api接口,它的格式为json,所以要用到json库来解析。BeautifulSoup是用来解析html文档的,可以很方便的帮我们获取指定div的内容。

    下面开始编写我们爬虫:

    第一步先导入以上三个包:

    import json
    import requests
    from bs4 import BeautifulSoup
    

    接着我们定义一个获取指定页码内数据的方法:

    def get_page(page):
        url_temp = 'http://temp.163.com/special/00804KVA/cm_guonei_0{}.js'
        return_list = []
        for i in range(page):
            url = url_temp.format(i)
            response = requests.get(url)
            if response.status_code != 200:
                continue
            content = response.text  # 获取响应正文
            _content = formatContent(content)  # 格式化json字符串
            result = json.loads(_content)
            return_list.append(result)
        return return_list
    

    这样子就得到每个页码对应的内容列表:

    在这里插入图片描述
    之后通过分析数据可知下图圈出来的则是需要抓取的标题、发布时间以及新闻内容页面。
    在这里插入图片描述

    既然现在已经获取到了内容页的url,那么接下来开始抓取新闻正文。

    在抓取正文之前要先分析一下正文的html页面,找到正文、作者、来源在html文档中的位置。

    我们看到文章来源在文档中的位置为:id = “ne_article_source” 的 a 标签
    作者位置为:class = “ep-editor” 的 span 标签
    正文位置为:class = “post_text” 的 div 标签

    下面试采集这三个内容的代码:

    def get_content(url):
        source = ''
        author = ''
        body = ''
        resp = requests.get(url)
        if resp.status_code == 200:
            body = resp.text
            bs4 = BeautifulSoup(body)
            source = bs4.find('a', id='ne_article_source').get_text()
            author = bs4.find('span', class_='ep-editor').get_text()
            body = bs4.find('div', class_='post_text').get_text()
        return source, author, body
    
    

    到此为止我们所要抓取的所有数据都已经采集了。

    那么接下来当然是把它们保存下来,为了方便我直接采取文本的形式来保存。下面是最终的结果:
    在这里插入图片描述

    格式为json字符串,“标题” : [ ‘日期’, ‘url’, ‘来源’, ‘作者’, ‘正文’ ]。

    要注意的是目前实现的方式是完全同步的,线性的方式,存在的问题就是采集会非常慢。主要延迟是在网络IO上,下次可以升级为异步IO,异步采集,有兴趣的可以关注下次的文章。

    展开全文
  • python3爬虫入门

    2018-06-08 15:37:51
    转载请1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980818283848586878889注明作者和出处: ...

    转载请

    注明作者和出处: http://blog.csdn.net/c406495762
    Github代码获取:https://github.com/Jack-Cherish/python-spider
    Python版本: Python3.x
    运行平台: Windows
    IDE: Sublime text3
    PS:本文为Gitchat线上分享文章,该文章发布时间为2017年09月19日。活动地址:
    http://gitbook.cn/m/mazi/activity/59b09bbf015c905277c2cc09



    一 前言

    强烈建议:请在电脑的陪同下,阅读本文。本文以实战为主,阅读过程如稍有不适,还望多加练习。
    本文的实战内容有:

    • 网络小说下载(静态网站)
    • 优美壁纸下载(动态网站)
    • 爱奇艺VIP视频下载

    二 网络爬虫简介

    网络爬虫,也叫网络蜘蛛(Web Spider)。它根据网页地址(URL)爬取网页内容,而网页地址(URL)就是我们在浏览器中输入的网站链接。比如:https://www.baidu.com/,它就是一个URL。

    在讲解爬虫内容之前,我们需要先学习一项写爬虫的必备技能:审查元素(如果已掌握,可跳过此部分内容)。

    1 审查元素

    在浏览器的地址栏输入URL地址,在网页处右键单击,找到检查。(不同浏览器的叫法不同,Chrome浏览器叫做检查,Firefox浏览器叫做查看元素,但是功能都是相同的)

    我们可以看到,右侧出现了一大推代码,这些代码就叫做HTML。什么是HTML?举个容易理解的例子:我们的基因决定了我们的原始容貌,服务器返回的HTML决定了网站的原始容貌。

    为啥说是原始容貌呢?因为人可以整容啊!扎心了,有木有?那网站也可以”整容”吗?可以!请看下图:

    我能有这么多钱吗?显然不可能。我是怎么给网站”整容”的呢?就是通过修改服务器返回的HTML信息。我们每个人都是”整容大师”,可以修改页面信息。我们在页面的哪个位置点击审查元素,浏览器就会为我们定位到相应的HTML位置,进而就可以在本地更改HTML信息。

    再举个小例子:我们都知道,使用浏览器”记住密码”的功能,密码会变成一堆小黑点,是不可见的。可以让密码显示出来吗?可以,只需给页面”动个小手术”!以淘宝为例,在输入密码框处右键,点击检查。

    可以看到,浏览器为我们自动定位到了相应的HTML位置。将下图中的password属性值改为text属性值(直接在右侧代码处修改):

    我们让浏览器记住的密码就这样显现出来了:

    说这么多,什么意思呢?浏览器就是作为客户端从服务器端获取信息,然后将信息解析,并展示给我们的。我们可以在本地修改HTML信息,为网页”整容”,但是我们修改的信息不会回传到服务器,服务器存储的HTML信息不会改变。刷新一下界面,页面还会回到原本的样子。这就跟人整容一样,我们能改变一些表面的东西,但是不能改变我们的基因。

    2 简单实例

    网络爬虫的第一步就是根据URL,获取网页的HTML信息。在Python3中,可以使用urllib.requestrequests进行网页爬取。

    • urllib库是python内置的,无需我们额外安装,只要安装了Python就可以使用这个库。
    • requests库是第三方库,需要我们自己安装。

    requests库强大好用,所以本文使用requests库获取网页的HTML信息。requests库的github地址:https://github.com/requests/requests

    (1) requests安装

    在cmd中,使用如下指令安装requests:

    pip install requests
    • 1

    或者:

    easy_install requests
    • 1

    (2) 简单实例

    requests库的基础方法如下:

    官方中文教程地址:http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

    requests库的开发者为我们提供了详细的中文教程,查询起来很方便。本文不会对其所有内容进行讲解,摘取其部分使用到的内容,进行实战说明。

    首先,让我们看下requests.get()方法,它用于向服务器发起GET请求,不了解GET请求没有关系。我们可以这样理解:get的中文意思是得到、抓住,那这个requests.get()方法就是从服务器得到、抓住数据,也就是获取数据。让我们看一个例子(以 www.gitbook.cn为例)来加深理解:

    # -*- coding:UTF-8 -*-
    import requests
    
    if __name__ == '__main__':
        target = 'http://gitbook.cn/'
        req = requests.get(url=target)
        print(req.text)
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7

    requests.get()方法必须设置的一个参数就是url,因为我们得告诉GET请求,我们的目标是谁,我们要获取谁的信息。运行程序看下结果:

    左侧是我们程序获得的结果,右侧是我们在www.gitbook.cn网站审查元素获得的信息。我们可以看到,我们已经顺利获得了该网页的HTML信息。这就是一个最简单的爬虫实例,可能你会问,我只是爬取了这个网页的HTML信息,有什么用呢?客官稍安勿躁,接下来进入我们的实战正文。


    三 爬虫实战

    1 小说下载

    (1) 实战背景

    小说网站-笔趣看:URL:http://www.biqukan.com/

    笔趣看是一个盗版小说网站,这里有很多起点中文网的小说,该网站小说的更新速度稍滞后于起点中文网正版小说的更新速度。并且该网站只支持在线浏览,不支持小说打包下载。因此,本次实战就是从该网站爬取并保存一本名为《一念永恒》的小说,该小说是耳根正在连载中的一部玄幻小说。PS:本实例仅为交流学习,支持耳根大大,请上起点中文网订阅。

    (2) 小试牛刀

    我们先看下《一念永恒》小说的第一章内容,URL:http://www.biqukan.com/1_1094/5403177.html

    我们先用已经学到的知识获取HTML信息试一试,编写代码如下:

    # -*- coding:UTF-8 -*-
    import requests
    
    if __name__ == '__main__':
        target = 'http://www.biqukan.com/1_1094/5403177.html'
        req = requests.get(url=target)
        print(req.text)
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7

    运行代码,可以看到如下结果:

    可以看到,我们很轻松地获取了HTML信息。但是,很显然,很多信息是我们不想看到的,我们只想获得如右侧所示的正文内容,我们不关心div、br这些html标签。如何把正文内容从这些众多的html标签中提取出来呢?这就是本次实战的主要内容。

    (3)Beautiful Soup

    爬虫的第一步,获取整个网页的HTML信息,我们已经完成。接下来就是爬虫的第二步,解析HTML信息,提取我们感兴趣的内容。对于本小节的实战,我们感兴趣的内容就是文章的正文。提取的方法有很多,例如使用正则表达式、Xpath、Beautiful Soup等。对于初学者而言,最容易理解,并且使用简单的方法就是使用Beautiful Soup提取感兴趣内容。

    Beautiful Soup的安装方法和requests一样,使用如下指令安装(也是二选一):

    • pip install beautifulsoup4
    • easy_install beautifulsoup4

    一个强大的第三方库,都会有一个详细的官方文档。我们很幸运,Beautiful Soup也是有中文的官方文档。

    URL:http://beautifulsoup.readthedocs.io/zh_CN/latest/

    同理,我会根据实战需求,讲解Beautiful Soup库的部分使用方法,更详细的内容,请查看官方文档。

    现在,我们使用已经掌握的审查元素方法,查看一下我们的目标页面,你会看到如下内容:

    不难发现,文章的所有内容都放在了一个名为div的“东西下面”,这个”东西”就是html标签。HTML标签是HTML语言中最基本的单位,HTML标签是HTML最重要的组成部分。不理解,没关系,我们再举个简单的例子:

    一个女人的包包里,会有很多东西,她们会根据自己的习惯将自己的东西进行分类放好。镜子和口红这些会经常用到的东西,会归放到容易拿到的外侧口袋里。那些不经常用到,需要注意安全存放的证件会放到不容易拿到的里侧口袋里。

    html标签就像一个个“口袋”,每个“口袋”都有自己的特定功能,负责存放不同的内容。显然,上述例子中的div标签下存放了我们关心的正文内容。这个div标签是这样的:

    <div id="content", class="showtxt">
    • 1

    细心的朋友可能已经发现,除了div字样外,还有id和class。id和class就是div标签的属性,content和showtxt是属性值,一个属性对应一个属性值。这东西有什么用?它是用来区分不同的div标签的,因为div标签可以有很多,我们怎么加以区分不同的div标签呢?就是通过不同的属性值。

    仔细观察目标网站一番,我们会发现这样一个事实:class属性为showtxt的div标签,独一份!这个标签里面存放的内容,是我们关心的正文部分。

    知道这个信息,我们就可以使用Beautiful Soup提取我们想要的内容了,编写代码如下:

    # -*- coding:UTF-8 -*-
    from bs4 import BeautifulSoup
    import requests
    if __name__ == "__main__":
         target = 'http://www.biqukan.com/1_1094/5403177.html'
         req = requests.get(url = target)
         html = req.text
         bf = BeautifulSoup(html)
         texts = bf.find_all('div', class_ = 'showtxt') print(texts)
    • 1
    • 2
    • 3#此时有两个错误:属性格式lxml,语法格式;(benbird1969注)
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9

    在解析html之前,我们需要创建一个Beautiful Soup对象。BeautifulSoup函数里的参数就是我们已经获得的html信息。然后我们使用find_all方法,获得html信息中所有class属性为showtxt的div标签。find_all方法的第一个参数是获取的标签名,第二个参数class_是标签的属性,为什么不是class,而带了一个下划线呢?因为python中class是关键字,为了防止冲突,这里使用class_表示标签的class属性,class_后面跟着的showtxt就是属性值了。看下我们要匹配的标签格式:

    <div id="content", class="showtxt">
    • 1

    这样对应的看一下,是不是就懂了?可能有人会问了,为什么不是find_all(‘div’, id = ‘content’, class_ = ‘showtxt’)?这样其实也是可以的,属性是作为查询时候的约束条件,添加一个class_=’showtxt’条件,我们就已经能够准确匹配到我们想要的标签了,所以我们就不必再添加id这个属性了。运行代码查看我们匹配的结果:

    我们可以看到,我们已经顺利匹配到我们关心的正文内容,但是还有一些我们不想要的东西。比如div标签名,br标签,以及各种空格。怎么去除这些东西呢?我们继续编写代码:

    # -*- coding:UTF-8 -*-
    from bs4 import BeautifulSoup
    import requests
    if __name__ == "__main__":
         target = 'http://www.biqukan.com/1_1094/5403177.html'
         req = requests.get(url = target) html = req.text
         bf = BeautifulSoup(html)
         texts = bf.find_all('div', class_ = 'showtxt')
         print(texts[0].text.replace('\xa0'*8,'\n\n'))
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9

    find_all匹配的返回的结果是一个列表。提取匹配结果后,使用text属性,提取文本内容,滤除br标签。随后使用replace方法,剔除空格,替换为回车进行分段。 在html中是用来表示空格的。replace(‘\xa0’*8,’\n\n’)就是去掉下图的八个空格符号,并用回车代替:

    程序运行结果如下:

    可以看到,我们很自然的匹配到了所有正文内容,并进行了分段。我们已经顺利获得了一个章节的内容,要想下载正本小说,我们就要获取每个章节的链接。我们先分析下小说目录:

    URL:http://www.biqukan.com/1_1094/

    通过审查元素,我们发现可以发现,这些章节都存放在了class属性为listmain的div标签下,选取部分html代码如下:

    <div class="listmain">
    <dl>
    <dt>《一念永恒》最新章节列表</dt>
    <dd><a href="/1_1094/15932394.html">第1027章 第十道门</a></dd>
    <dd><a href="/1_1094/15923072.html">第1026章 绝伦道法!</a></dd>
    <dd><a href="/1_1094/15921862.html">第1025章 长生灯!</a></dd>
    <dd><a href="/1_1094/15918591.html">第1024章 一目晶渊</a></dd>
    <dd><a href="/1_1094/15906236.html">第1023章 通天道门</a></dd>
    <dd><a href="/1_1094/15903775.html">第1022章 四大凶兽!</a></dd>
    <dd><a href="/1_1094/15890427.html">第1021章 鳄首!</a></dd>
    <dd><a href="/1_1094/15886627.html">第1020章 一触即发!</a></dd>
    <dd><a href="/1_1094/15875306.html">第1019章 魁祖的气息!</a></dd>
    <dd><a href="/1_1094/15871572.html">第1018章 绝望的魁皇城</a></dd>
    <dd><a href="/1_1094/15859514.html">第1017章 我还是恨你!</a></dd>
    <dd><a href="/1_1094/15856137.html">第1016章 从来没有世界之门!</a></dd>
    <dt>《一念永恒》正文卷</dt> <dd><a href="/1_1094/5386269.html">外传1 柯父。</a></dd>
    <dd><a href="/1_1094/5386270.html">外传2 楚玉嫣。</a></dd> <dd><a href="/1_1094/5386271.html">外传3 鹦鹉与皮冻。</a></dd>
    <dd><a href="/1_1094/5403177.html">第一章 他叫白小纯</a></dd> <dd><a href="/1_1094/5428081.html">第二章 火灶房</a></dd>
    <dd><a href="/1_1094/5433843.html">第三章 六句真言</a></dd> <dd><a href="/1_1094/5447905.html">第四章 炼灵</a></dd>
    </dl>
    </div>
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21

    在分析之前,让我们先介绍一个概念:父节点、子节点、孙节点。<div></div>限定了<div>标签的开始和结束的位置,他们是成对出现的,有开始位置,就有结束位置。我们可以看到,在<div>标签包含<dl>标签,那这个<dl>标签就是<div>标签的子节点,<dl>标签又包含<dt>标签和<dd>标签,那么<dt>标签和<dd>标签就是<div>标签的孙节点。有点绕?那你记住这句话:谁包含谁,谁就是谁儿子!

    他们之间的关系都是相对的。比如对于<dd>标签,它的子节点是<a>标签,它的父节点是<dl>标签。这跟我们人是一样的,上有老下有小。

    看到这里可能有人会问,这有好多<dd>标签和<a>标签啊!不同的<dd>标签,它们是什么关系啊?显然,兄弟姐妹喽!我们称它们为兄弟结点。
    好了,概念明确清楚,接下来,让我们分析一下问题。我们看到每个章节的名字存放在了<a>标签里面。<a>标签还有一个href属性。这里就不得不提一下<a>标签的定义了,<a>标签定义了一个超链接,用于从一张页面链接到另一张页面。<a> 标签最重要的属性是 href 属性,它指示链接的目标。

    我们将之前获得的第一章节的URL和<a> 标签对比看一下:

    http://www.biqukan.com/1_1094/5403177.html
    <a href="/1_1094/5403177.html">第一章 他叫白小纯</a>
    • 1
    • 2

    不难发现,<a> 标签中href属性存放的属性值/1_1094/5403177.html是章节URLhttp://www.biqukan.com/1_1094/5403177.html的后半部分。其他章节也是如此!那这样,我们就可以根据<a>标签的href属性值获得每个章节的链接和名称了。

    总结一下:小说每章的链接放在了class属性为listmain的<div>标签下的<a>标签中。链接具体位置放在html->body->div->dl->dd->a的href属性中。先匹配class属性为listmain的<div>标签,再匹配<a>标签。编写代码如下:

    # -*- coding:UTF-8 -*-
    from bs4 import BeautifulSoup
    import requests
    if __name__ == "__main__":
         target = 'http://www.biqukan.com/1_1094/'
         req = requests.get(url = target)
         html = req.text
         div_bf = BeautifulSoup(html)
         div = div_bf.find_all('div', class_ = 'listmain')
         print(div[0])
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10

    还是使用find_all方法,运行结果如下:

    很顺利,接下来再匹配每一个<a>标签,并提取章节名和章节文章。如果我们使用Beautiful Soup匹配到了下面这个<a>标签,如何提取它的href属性和<a>标签里存放的章节名呢?

    <a href="/1_1094/5403177.html">第一章 他叫白小纯</a>
    • 1

    方法很简单,对Beautiful Soup返回的匹配结果a,使用a.get(‘href’)方法就能获取href的属性值,使用a.string就能获取章节名,编写代码如下:

    # -*- coding:UTF-8 -*-
    from bs4 import BeautifulSoup
    import requests
    if __name__ == "__main__":
         server = 'http://www.biqukan.com/'
         target = 'http://www.biqukan.com/1_1094/'
         req = requests.get(url = target) html = req.text
         div_bf = BeautifulSoup(html)
         div = div_bf.find_all('div', class_ = 'listmain')
         a_bf = BeautifulSoup(str(div[0]))
         a = a_bf.find_all('a')
         for each in a:
              print(each.string, server + each.get('href'))
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13

    因为find_all返回的是一个列表,里边存放了很多的<a>标签,所以使用for循环遍历每个<a>标签并打印出来,运行结果如下。

    最上面匹配的一千多章的内容是最新更新的12章节的链接。这12章内容会和下面的重复,所以我们要滤除,除此之外,还有那3个外传,我们也不想要。这些都简单地剔除就好。

    (3)整合代码

    每个章节的链接、章节名、章节内容都有了。接下来就是整合代码,将获得内容写入文本文件存储就好了。编写代码如下:

    # -*- coding:UTF-8 -*-
    from bs4 import BeautifulSoup
    import requests, sys
    
    """
    类说明:下载《笔趣看》网小说《一念永恒》
    Parameters:
        无
    Returns:
        无
    Modify:
        2017-09-13
    """
    class downloader(object):
    
        def __init__(self):
            self.server = 'http://www.biqukan.com/'
            self.target = 'http://www.biqukan.com/1_1094/'
            self.names = []            #存放章节名
            self.urls = []            #存放章节链接
            self.nums = 0            #章节数
    
        """
        函数说明:获取下载链接
        Parameters:
            无
        Returns:
            无
        Modify:
            2017-09-13
        """
        def get_download_url(self):
            req = requests.get(url = self.target)
            html = req.text
            div_bf = BeautifulSoup(html)
            div = div_bf.find_all('div', class_ = 'listmain')
            a_bf = BeautifulSoup(str(div[0]))
            a = a_bf.find_all('a')
            self.nums = len(a[15:])                                #剔除不必要的章节,并统计章节数
            for each in a[15:]:
                self.names.append(each.string)
                self.urls.append(self.server + each.get('href'))
    
        """
        函数说明:获取章节内容
        Parameters:
            target - 下载连接(string)
        Returns:
            texts - 章节内容(string)
        Modify:
            2017-09-13
        """
        def get_contents(self, target):
            req = requests.get(url = target)
            html = req.text
            bf = BeautifulSoup(html)
            texts = bf.find_all('div', class_ = 'showtxt')
            texts = texts[0].text.replace('\xa0'*8,'\n\n')
            return texts
    
        """
        函数说明:将爬取的文章内容写入文件
        Parameters:
            name - 章节名称(string)
            path - 当前路径下,小说保存名称(string)
            text - 章节内容(string)
        Returns:
            无
        Modify:
            2017-09-13
        """
        def writer(self, name, path, text):
            write_flag = True
            with open(path, 'a', encoding='utf-8') as f:
                f.write(name + '\n')
                f.writelines(text)
                f.write('\n\n')
    
    if __name__ == "__main__":
        dl = downloader()
        dl.get_download_url()
        print('《一年永恒》开始下载:')
        for i in range(dl.nums):
            dl.writer(dl.names[i], '一念永恒.txt', dl.get_contents(dl.urls[i]))
            sys.stdout.write("  已下载:%.3f%%" %  float(i/dl.nums) + '\r')
            sys.stdout.flush()
        print('《一年永恒》下载完成')
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
    • 49
    • 50
    • 51
    • 52
    • 53
    • 54
    • 55
    • 56
    • 57
    • 58
    • 59
    • 60
    • 61
    • 62
    • 63
    • 64
    • 65
    • 66
    • 67
    • 68
    • 69
    • 70
    • 71
    • 72
    • 73
    • 74
    • 75
    • 76
    • 77
    • 78
    • 79
    • 80
    • 81
    • 82
    • 83
    • 84
    • 85
    • 86
    • 87

    很简单的程序,单进程跑,没有开进程池。下载速度略慢,喝杯茶休息休息吧。代码运行效果如下图所示:

    2 优美壁纸下载

    (1)实战背景

    已经会爬取文字了,是不是感觉爬虫还是蛮好玩的呢?接下来,让我们进行一个进阶实战,了解一下反爬虫。

    URL:https://unsplash.com/

    看一看这些优美的壁纸,这个网站的名字叫做Unsplash,免费高清壁纸分享网是一个坚持每天分享高清的摄影图片的站点,每天更新一张高质量的图片素材,全是生活中的景象作品,清新的生活气息图片可以作为桌面壁纸也可以应用于各种需要的环境。

    看到这么优美的图片,我的第一反应就是想收藏一些,作为知乎文章的题图再好不过了。每张图片我都很喜欢,批量下载吧,不多爬,就下载50张好了。

    (2)实战进阶

    我们已经知道了每个html标签都有各自的功能。<a>标签存放一下超链接,图片存放在哪个标签里呢?html规定,图片统统给我放到<img>标签中!既然这样,我们截取就Unsplash网站中的一个<img>标签,分析一下:

    <img alt="Snow-capped mountain slopes under blue sky" src="https://images.unsplash.com/photo-1428509774491-cfac96e12253?dpr=1&amp;auto=compress,format&amp;fit=crop&amp;w=360&amp;h=240&amp;q=80&amp;cs=tinysrgb&amp;crop=" class="cV68d" style="width: 220px; height: 147px;">
    • 1

    可以看到,<img>标签有很多属性,有alt、src、class、style属性,其中src属性存放的就是我们需要的图片保存地址,我们根据这个地址就可以进行图片的下载。

    那么,让我们先捋一捋这个过程:

    • 使用requeusts获取整个网页的HTML信息;
    • 使用Beautiful Soup解析HTML信息,找到所有<img>标签,提取src属性,获取图片存放地址;
    • 根据图片存放地址,下载图片。

    我们信心满满地按照这个思路爬取Unsplash试一试,编写代码如下:

    # -*- coding:UTF-8 -*-
    import requests
    if __name__ == '__main__':
         target = 'https://unsplash.com/'
         req = requests.get(url=target)
         print(req.text)
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    按照我们的设想,我们应该能找到很多<img>标签。但是我们发现,除了一些<script>标签和一些看不懂的代码之外,我们一无所获,一个<img>标签都没有!跟我们在网站审查元素的结果完全不一样,这是为什么?

    答案就是,这个网站的所有图片都是动态加载的!网站有静态网站和动态网站之分,上一个实战爬取的网站是静态网站,而这个网站是动态网站,动态加载有一部分的目的就是为了反爬虫。

    对于什么是动态加载,你可以这样理解:我们知道化妆术学的好,贼厉害,可以改变一个人的容貌。相应的,动态加载用的好,也贼厉害,可以改变一个网站的容貌。

    动态网站使用动态加载常用的手段就是通过调用JavaScript来实现的。怎么实现JavaScript动态加载,我们不必深究,我们只要知道,动态加载的JavaScript脚本,就像化妆术需要用的化妆品,五花八门。有粉底、口红、睫毛膏等等,它们都有各自的用途。动态加载的JavaScript脚本也一样,一个动态加载的网站可能使用很多JavaScript脚本,我们只要找到负责动态加载图片的JavaScript脚本,不就找到我们需要的链接了吗?

    对于初学者,我们不必看懂JavaScript执行的内容是什么,做了哪些事情,因为我们有强大的抓包工具,它自然会帮我们分析。这个强大的抓包工具就是Fiddler:

    URL:http://www.telerik.com/fiddler

    PS:也可以使用浏览器自带的Networks,但是我更推荐这个软件,因为它操作起来更高效。

    安装方法很简单,傻瓜式安装,一直下一步即可,对于经常使用电脑的人来说,应该没有任何难度。

    这个软件的使用方法也很简单,打开软件,然后用浏览器打开我们的目标网站,以Unsplash为例,抓包结果如下:

    我们可以看到,上图左侧红框处是我们的GET请求的地址,就是网站的URL,右下角是服务器返回的信息,我们可以看到,这些信息也是我们上一个程序获得的信息。这个不是我们需要的链接,我们继续往下看。

    我们发现上图所示的就是一个JavaScript请求,看右下侧服务器返回的信息是一个json格式的数据。这里面,就有我们需要的内容。我们局部放大看一下:

    这是Fiddler右侧的信息,上面是请求的Headers信息,包括这个Javascript的请求地 址:http://unsplash.com/napi/feeds/home,其他信息我们先不管,我们看看下面的内容。里面有很多图片的信息,包括图片的id,图片的大小,图片的链接,还有下一页的地址。这个脚本以json格式存储传输的数据,json格式是一种轻量级的数据交换格式,起到封装数据的作用,易于人阅读和编写,同时也易于机器解析和生成。这么多链接,可以看到图片的链接有很多,根据哪个链接下载图片呢?先别急,让我们继续分析:

    在这个网站,我们可以按这个按钮进行图片下载。我们抓包分下下这个动作,看看发送了哪些请求。

    https://unsplash.com/photos/1PrQ2mHW-Fo/download?force=true
    https://unsplash.com/photos/JX7nDtafBcU/download?force=true
    https://unsplash.com/photos/HCVbP3zqX4k/download?force=true
    • 1
    • 2
    • 3

    通过Fiddler抓包,我们发现,点击不同图片的下载按钮,GET请求的地址都是不同的。但是它们很有规律,就是中间有一段代码是不一样的,其他地方都一样。中间那段代码是不是很熟悉?没错,它就是我们之前抓包分析得到json数据中的照片的id。我们只要解析出每个照片的id,就可以获得图片下载的请求地址,然后根据这个请求地址,我们就可以下载图片了。那么,现在的首要任务就是解析json数据了。

    json格式的数据也是分层的。可以看到next_page里存放的是下一页的请求地址,很显然Unsplash下一页的内容,也是动态加载的。在photos下面的id里,存放着图片的id,这个就是我们需要获得的图片id号。

    怎么编程提取这些json数据呢?我们也是分步完成:

    • 获取整个json数据
    • 解析json数据

    编写代码,尝试获取json数据:

    # -*- coding:UTF-8 -*-
    import requests
    if __name__ == '__main__':
         target = 'http://unsplash.com/napi/feeds/home'
         req = requests.get(url=target) print(req.text)
    • 1
    • 2
    • 3
    • 4
    • 5

    很遗憾,程序报错了,问题出在哪里?通过错误信息,我们可以看到SSL认证错误,SSL认证是指客户端到服务器端的认证。一个非常简单的解决这个认证错误的方法就是设置requests.get()方法的verify参数。这个参数默认设置为True,也就是执行认证。我们将其设置为False,绕过认证不就可以了?

    有想法就要尝试,编写代码如下:

    # -*- coding:UTF-8 -*-
    import requests
    if __name__ == '__main__':
         target = 'http://unsplash.com/napi/feeds/home'
         req = requests.get(url=target, verify=False)
         print(req.text)
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    认证问题解决了,又有新问题了:

    可以看到,我们GET请求又失败了,这是为什么?这个网站反爬虫的手段除了动态加载,还有一个反爬虫手段,那就是验证Request Headers。接下来,让我们分析下这个Requests Headers:

    我截取了Fiddler的抓包信息,可以看到Requests Headers里又很多参数,有Accept、Accept-Encoding、Accept-Language、DPR、User-Agent、Viewport-Width、accept-version、Referer、x-unsplash-client、authorization、Connection、Host。它们都是什么意思呢?

    专业的解释能说的太多,我挑重点:

    • User-Agent:这里面存放浏览器的信息。可以看到上图的参数值,它表示我是通过Windows的Chrome浏览器,访问的这个服务器。如果我们不设置这个参数,用Python程序直接发送GET请求,服务器接受到的User-Agent信息就会是一个包含python字样的User-Agent。如果后台设计者验证这个User-Agent参数是否合法,不让带Python字样的User-Agent访问,这样就起到了反爬虫的作用。这是一个最简单的,最常用的反爬虫手段。

    • Referer:这个参数也可以用于反爬虫,它表示这个请求是从哪发出的。可以看到我们通过浏览器访问网站,这个请求是从https://unsplash.com/,这个地址发出的。如果后台设计者,验证这个参数,对于不是从这个地址跳转过来的请求一律禁止访问,这样就也起到了反爬虫的作用。

    • authorization:这个参数是基于AAA模型中的身份验证信息允许访问一种资源的行为。在我们用浏览器访问的时候,服务器会为访问者分配这个用户ID。如果后台设计者,验证这个参数,对于没有用户ID的请求一律禁止访问,这样就又起到了反爬虫的作用。

    Unsplash是根据哪个参数反爬虫的呢?根据我的测试,是authorization。我们只要通过程序手动添加这个参数,然后再发送GET请求,就可以顺利访问了。怎么什么设置呢?还是requests.get()方法,我们只需要添加headers参数即可。编写代码如下:

    # -*- coding:UTF-8 -*-
    import requests
    if __name__ == '__main__':
         target = 'http://unsplash.com/napi/feeds/home'
         headers = {'authorization':'your Client-ID'}
         req = requests.get(url=target, headers=headers, verify=False)
         print(req.text)
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7

    headers参数值是通过字典传入的。记得将上述代码中your Client-ID换成诸位自己抓包获得的信息。代码运行结果如下:

    皇天不负有心人,可以看到我们已经顺利获得json数据了,里面有next_page和照片的id。接下来就是解析json数据。根据我们之前分析可知,next_page放在了json数据的最外侧,照片的id放在了photos->id里。我们使用json.load()方法解析数据,编写代码如下:
    # -*- coding:UTF-8 -*-
    import requests, json
    if __name__ == '__main__':
         target = 'http://unsplash.com/napi/feeds/home'
         headers = {'authorization':'your Client-ID'}
         req = requests.get(url=target, headers=headers, verify=False)
         html = json.loads(req.text)
         next_page = html['next_page']
         print('下一页地址:',next_page)
         for each in html['photos']:
              print('图片ID:',each['id'])
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11

    解析json数据很简单,跟字典操作一样,就是字典套字典。json.load()里面的参数是原始的json格式的数据。程序运行结果如下:

    图片的ID已经获得了,再通过字符串处理一下,就生成了我们需要的图片下载请求地址。根据这个地址,我们就可以下载图片了。下载方式,使用直接写入文件的方法。

    (3)整合代码

    每次获取链接加一个1s延时,因为人在浏览页面的时候,翻页的动作不可能太快。我们要让我们的爬虫尽量友好一些。

    # -*- coding:UTF-8 -*-
    import requests, json, time, sys
    from contextlib import closing
    
    class get_photos(object):
    
        def __init__(self):
            self.photos_id = []
            self.download_server = 'https://unsplash.com/photos/xxx/download?force=trues'
            self.target = 'http://unsplash.com/napi/feeds/home'
            self.headers = {'authorization':'Client-ID c94869b36aa272dd62dfaeefed769d4115fb3189a9d1ec88ed457207747be626'}
    
        """
        函数说明:获取图片ID
        Parameters:
            无
        Returns:
            无
        Modify:
            2017-09-13
        """   
        def get_ids(self):
            req = requests.get(url=self.target, headers=self.headers, verify=False)
            html = json.loads(req.text)
            next_page = html['next_page']
            for each in html['photos']:
                self.photos_id.append(each['id'])
            time.sleep(1)
            for i in range(5):
                req = requests.get(url=next_page, headers=self.headers, verify=False)
                html = json.loads(req.text)
                next_page = html['next_page']
                for each in html['photos']:
                    self.photos_id.append(each['id'])
                time.sleep(1)
    
    
        """
        函数说明:图片下载
        Parameters:
            无
        Returns:
            无
        Modify:
            2017-09-13
        """   
        def download(self, photo_id, filename):
            headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36'}
            target = self.download_server.replace('xxx', photo_id)
            with closing(requests.get(url=target, stream=True, verify = False, headers = self.headers)) as r:
                with open('%d.jpg' % filename, 'ab+') as f:
                    for chunk in r.iter_content(chunk_size = 1024):
                        if chunk:
                            f.write(chunk)
                            f.flush()
    
    if __name__ == '__main__':
        gp = get_photos()
        print('获取图片连接中:')
        gp.get_ids()
        print('图片下载中:')
        for i in range(len(gp.photos_id)):
            print('  正在下载第%d张图片' % (i+1))
            gp.download(gp.photos_id[i], (i+1))
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
    • 49
    • 50
    • 51
    • 52
    • 53
    • 54
    • 55
    • 56
    • 57
    • 58
    • 59
    • 60
    • 61
    • 62
    • 63
    • 64

    下载速度还行,有的图片下载慢是因为图片太大。可以看到右侧也打印了一些警报信息,这是因为我们没有进行SSL验证。

    学会了爬取图片,简单的动态加载的网站也难不倒你了。赶快试试国内的一些图片网站吧!

    3 爱奇艺VIP视频下载

    (1)实战背景

    爱奇艺的VIP视频只有会员能看,普通用户只能看前6分钟。比如加勒比海盗5:

    URL:http://www.iqiyi.com/v_19rr7qhfg0.html#vfrm=19-9-0-1

    我们怎么免费看VIP视频呢?一个简单的方法,就是通过旋风视频VIP解析网站。

    URL:http://api.xfsub.com/

    这个网站为我们提供了免费的视频解析,它的通用解析方式是:

    http://api.xfsub.com/index.php?url=[播放地址或视频id]
    • 1

    比如,对于绣春刀这个电影,我们只需要在浏览器地址栏输入:

    http://api.xfsub.com/index.php?url=http://www.iqiyi.com/v_19rr7qhfg0.html#vfrm=19-9-0-1
    • 1

    这样,我们就可以在线观看这些VIP视频了:

    但是这个网站只提供了在线解析视频的功能,没有提供下载接口,如果想把视频下载下来,我们就可以利用网络爬虫进行抓包,将视频下载下来。

    (2)实战升级

    分析方法相同,我们使用Fiddler进行抓包:

    我们可以看到,有用的请求并不多,我们逐条分析。我们先看第一个请求返回的信息。

    可以看到第一个请求是GET请求,没有什么有用的信息,继续看下一条。

    我们看到,第二条GET请求地址变了,并且在返回的信息中,我们看到,这个网页执行了一个POST请求。POST请求是啥呢?它跟GET请求正好相反,GET是从服务器获得数据,而POST请求是向服务器发送数据,服务器再根据POST请求的参数,返回相应的内容。这个POST请求有四个参数,分别为time、key、url、type。记住这个有用的信息,我们在抓包结果中,找一下这个请求,看看这个POST请求做了什么。

    很显然,这个就是我们要找的POST请求,我们可以看到POST请求的参数以及返回的json格式的数据。其中url存放的参数如下:

    xfsub_api\/url.php?key=02896e4af69fb18f70129b6046d7c718&time=1505724557&url=http%3A%2F%2Fwww.iqiyi.com%2Fv_19rr7qhfg0.html&type=&xml=1
    • 1

    这个信息有转义了,但是没有关系,我们手动提取一下,变成如下形式:

    xfsub_api/url.php?key=02896e4af69fb18f70129b6046d7c718&time=1505724557&url=http://www.iqiyi.com/v_19rr7qhfg0.html&type=&xml=1
    • 1

    我们已经知道了这个解析视频的服务器的域名,再把域名加上:

    http://api.xfsub.com/xfsub_api\url.php?key=02896e4af69fb18f70129b6046d7c718&time=1505724557&url=http://www.iqiyi.com/v_19rr7qhfg0.html&type=&xml=1
    • 1

    这里面存放的是什么东西?不会视频解析后的地址吧?我们有浏览器打开这个地址看一下:

    我们再打开这个视频地址:

    瞧,我们就这样得到了这个视频在服务器上的缓存地址。根据这个地址,我们就可以轻松下载视频了。

    PS:需要注意一点,这些URL地址,都是有一定时效性的,很快就会失效,因为里面包含时间信息。所以,各位在分析的时候,要根据自己的URL结果打开网站才能看到视频。

    接下来,我们的任务就是编程实现我们所分析的步骤,根据不同的视频播放地址获得视频存放的地址。

    现在梳理一下编程思路:

    • 用正则表达式匹配到key、time、url等信息。
    • 根据匹配的到信息发POST请求,获得一个存放视频信息的url。
    • 根据这个url获得视频存放的地址。
    • 根据最终的视频地址,下载视频。

    (3)编写代码

    编写代码的时候注意一个问题,就是我们需要使用requests.session()保持我们的会话请求。简单理解就是,在初次访问服务器的时候,服务器会给你分配一个身份证明。我们需要拿着这个身份证去继续访问,如果没有这个身份证明,服务器就不会再让你访问。这也就是这个服务器的反爬虫手段,会验证用户的身份。

    #-*- coding:UTF-8 -*-
    import requests,re, json
    from bs4 import BeautifulSoup
    
    class video_downloader():
        def __init__(self, url):
            self.server = 'http://api.xfsub.com'
            self.api = 'http://api.xfsub.com/xfsub_api/?url='
            self.get_url_api = 'http://api.xfsub.com/xfsub_api/url.php'
            self.url = url.split('#')[0]
            self.target = self.api + self.url
            self.s = requests.session()
    
        """
        函数说明:获取key、time、url等参数
        Parameters:
            无
        Returns:
            无
        Modify:
            2017-09-18
        """
        def get_key(self):
            req = self.s.get(url=self.target)
            req.encoding = 'utf-8'
            self.info = json.loads(re.findall('"url.php",\ (.+),', req.text)[0])    #使用正则表达式匹配结果,将匹配的结果存入info变量中
    
        """
        函数说明:获取视频地址
        Parameters:
            无
        Returns:
            video_url - 视频存放地址
        Modify:
            2017-09-18
        """
        def get_url(self):
            data = {'time':self.info['time'],
                'key':self.info['key'],
                'url':self.info['url'],
                'type':''}
            req = self.s.post(url=self.get_url_api,data=data)
            url = self.server + json.loads(req.text)['url']
            req = self.s.get(url)
            bf = BeautifulSoup(req.text,'xml')                                        #因为文件是xml格式的,所以要进行xml解析。
            video_url = bf.find('file').string                                        #匹配到视频地址
            return video_url
    
    if __name__ == '__main__':
         url = 'http://www.iqiyi.com/v_19rr7qhfg0.html#vfrm=19-9-0-1'
         vd = video_downloader(url)
         vd.get_key()
         print(vd.get_url())
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
    • 49
    • 50
    • 51
    • 52
    • 53

    思路已经给出,希望喜欢爬虫的人可以在运行下代码之后,自己重头编写程序,因为只有经过自己分析和测试之后,才能真正明白这些代码的意义。上述代码运行结果如下:

    我们已经顺利获得了mp4这个视频文件地址。根据视频地址,使用urllib.request.urlretrieve()即可将视频下载下来。编写代码如下:
    #-*- coding:UTF-8 -*-
    import requests,re, json, sys
    from bs4 import BeautifulSoup
    from urllib import request
    
    class video_downloader():
        def __init__(self, url):
            self.server = 'http://api.xfsub.com'
            self.api = 'http://api.xfsub.com/xfsub_api/?url='
            self.get_url_api = 'http://api.xfsub.com/xfsub_api/url.php'
            self.url = url.split('#')[0]
            self.target = self.api + self.url
            self.s = requests.session()
    
        """
        函数说明:获取key、time、url等参数
        Parameters:
            无
        Returns:
            无
        Modify:
            2017-09-18
        """
        def get_key(self):
            req = self.s.get(url=self.target)
            req.encoding = 'utf-8'
            self.info = json.loads(re.findall('"url.php",\ (.+),', req.text)[0])    #使用正则表达式匹配结果,将匹配的结果存入info变量中
    
        """
        函数说明:获取视频地址
        Parameters:
            无
        Returns:
            video_url - 视频存放地址
        Modify:
            2017-09-18
        """
        def get_url(self):
            data = {'time':self.info['time'],
                'key':self.info['key'],
                'url':self.info['url'],
                'type':''}
            req = self.s.post(url=self.get_url_api,data=data)
            url = self.server + json.loads(req.text)['url']
            req = self.s.get(url)
            bf = BeautifulSoup(req.text,'xml')                                        #因为文件是xml格式的,所以要进行xml解析。
            video_url = bf.find('file').string                                        #匹配到视频地址
            return video_url
    
        """
        函数说明:回调函数,打印下载进度
        Parameters:
            a b c - 返回信息
        Returns:
            无
        Modify:
            2017-09-18
        """
        def Schedule(self, a, b, c):
            per = 100.0*a*b/c
            if per > 100 :
                per = 1
            sys.stdout.write("  " + "%.2f%% 已经下载的大小:%ld 文件大小:%ld" % (per,a*b,c) + '\r')
            sys.stdout.flush()
    
        """
        函数说明:视频下载
        Parameters:
            url - 视频地址
            filename - 视频名字
        Returns:
            无
        Modify:
            2017-09-18
        """
        def video_download(self, url, filename):
            request.urlretrieve(url=url,filename=filename,reporthook=self.Schedule)
    
    
    if __name__ == '__main__':
        url = 'http://www.iqiyi.com/v_19rr7qhfg0.html#vfrm=19-9-0-1'
        vd = video_downloader(url)
        filename = '加勒比海盗5'
        print('%s下载中:' % filename)
        vd.get_key()
        video_url = vd.get_url()
        print('  获取地址成功:%s' % video_url)
        vd.video_download(video_url, filename+'.mp4')
        print('\n下载完成!')

    urlretrieve()有三个参数,第一个url参数是视频存放的地址,第二个参数filename是保存的文件名,最后一个是回调函数,它方便我们查看下载进度。代码量不大,很简单,主要在于分析过程。代码运行结果如下:

    下载速度挺快的,几分钟视频下载好了。

    对于这个程序,感兴趣的朋友可以进行扩展一下,设计出一个小软件,根据用户提供的url,提供PC在线观看、手机在线观看、视频下载等功能。

    四 总结

    • 本次Chat讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途!
    • 爬虫时效性低,同样的思路过了一个月,甚至一周可能无法使用,但是爬取思路都是如此,完全可以自行分析。
    • 本次实战代码,均已上传我的Github,欢迎Follow、Star:https://github.com/Jack-Cherish/python-spider
    • 如有问题,请留言。如有错误,还望指正,谢谢!

    我自己学习参考用的。

    展开全文
  • python爬虫入门教程,介绍编写一个简单爬虫的过程。

    2019/10/28更新

    • 使用Python3,而不再是Python2

    转载请注明出处:https://blog.csdn.net/aaronjny/article/details/77945329

    爬虫入门系列教程:


    上一篇讲了开始爬虫前的准备工作。当我们完成开发环境的安装、IDE的配置之后,就可以开始开发爬虫了。 这一篇,我们开始写一个超级简单的爬虫。

    1.爬虫的过程分析

    当人类去访问一个网页时,是如何进行的?
      ①打开浏览器,输入要访问的网址,发起请求。
      ②等待服务器返回数据,通过浏览器加载网页。
      ③从网页中找到自己需要的数据(文本、图片、文件等等)。
      ④保存自己需要的数据。

    对于爬虫,也是类似的。它模仿人类请求网页的过程,但是又稍有不同。
      首先,对应于上面的①和②步骤,我们要利用python实现请求一个网页的功能。
      其次,对应于上面的③步骤,我们要利用python实现解析请求到的网页的功能。
      最后,对于上面的④步骤,我们要利用python实现保存数据的功能。
      因为是讲一个简单的爬虫嘛,所以一些其他的复杂操作这里就不说了。下面,针对上面几个功能,逐一进行分析。

    2.如何用python请求一个网页

    作为一门拥有丰富类库的编程语言,利用python请求网页完全不在话下。这里推荐一个非常好用的第三方类库requests。

    2.1 requests

    2.1.1 安装方式

    打开终端或者cmd,在里面输入以下指令并回车

    pip3 install requests
    

    安装requests
      一般不会出什么问题,如果下载太慢,是因为pip使用的源服务器在国外,可以设置pip使用国内镜像源,设置方法可以参考PyPI使用国内源

    2.1.2 测试是否安装成功

    在命令行中输入python,敲击回车,进入python交互环境。在里面输入以下代码并回车:

    import requests
    

    如果不报错,就安装成功了,如下图:
      测试requests安装是否成功

    2.2 使用requests请求网页

    打开pycharm,创建一个项目,嗯,随便取个名字吧。
      创建项目
      创建成功后,再创建一个py文件,用来写代码。嗯,再随便取个名字= =教程(二)的2.2,那就spider_2_2_2吧。
      创建2.2.2
      在里面输入以下代码:

    #coding=utf-8
    import requests
    
    resp=requests.get('https://www.baidu.com') #请求百度首页
    print(resp) #打印请求结果的状态码
    print(resp.content) #打印请求到的网页源码
    

    对上面的代码进行以下简单的分析:
      我是用的是python2.7,第1行到第4行,都是为了将字符编码设置为utf8
      第2行:引入requests包。
      第4行:使用requests类库,以get的方式请求网址https://www.baidu.com,并将服务器返回的结果封装成一个对象,用变量resp来接收它。
      第5行:一般可以根据状态码来判断是否请求成功,正常的状态码是200,异常状态码就很多了,比如404(找不到网页)、301(重定向)等。
      第6行:打印网页的源码。注意,只是源码。不像是浏览器,在获取到源码之后,还会进一步地取请求源码中引用的图片等信息,如果有JS,浏览器还会执行JS,对页面显示的内容进行修改。使用requests进行请求,我们能够直接获取到的,只有最初始的网页源码。也正是因为这样,不加载图片、不执行JS等等,爬虫请求的速度会非常快。
      代码很短吧?一行就完成了请求,可以,这很python
      现在,运行一下代码看看吧。
      运行结果
      箭头指向的是状态码,可以看到,200,请求正常。
      被圈起来是网页的源码。

    3.如何用python解析网页源码

    网页源码我们拿到了,接下来就是要解析了。python解析网页源码有很多种方法,比如BeautifulSoup、正则、pyquery、xpath等。这里我简单介绍一下。

    3.1 网页源码解析器

    3.1.1 BeautifulSoup

    这是我比较推荐的一款解析器,简单易用,容易理解。
      但是使用bs4还需要安装另一个类库lxml,用来代替bs4默认的解析器。之所以这样做,是因为默认的那个实在太慢了,换用了lxml后,可以大幅度提升解析速度。

    3.1.1.1 安装

    命令行中输入以下指令并回车,安装bs4:

    pip3 install beautifulsoup4
    

    安装bs4
      使用pip直接安装lxml会出错,所以要用些特别的方法。Windows用户的话,去百度搜一下lxml在Windows环境下的安装方法,网上有很多,我就不多说了(主要是嫌麻烦= =)。Ubuntu用户就很方便了,在终端里面输入以下指令并回车就行了:

    apt-get install python-lxml
    

    python-lxml

    3.1.1.2 测试是否安装成功

    进入python交互环境,引用bs4和lxml类库,不报错即安装成功。

    import bs4
    import lxml
    

    bs4+lxml

    3.1.2 正则

    这个不用安装,标准库里带的就有。
      正则的优点:①速度快 ②能够提取有些解析器提取不到的数据
      正则的缺点:①不够直观,很难从面向对象的角度来考虑数据的提取 ②你得会写正则表达式
      教程就不放了,善用百度嘛。正则一般用来满足特殊需求、以及提取其他解析器提取不到的数据,正常情况下我会用bs4,bs4无法满足就用正则。
      当然了,如果你喜欢,全部用正则解析也是没问题的,你喜欢就好= =。

    3.1.3 pyquery

    这个解析器的语法和jQuery很相似,所以写过jQuery的同学用起来可能比较容易上手。国内有个dalao写的爬虫框架pyspider用的就是这个解析器。
      如果没用过jQuery,那就在bs4和pyquery两个里面选一个学吧,一般情况下会一个就够了。

    3.1.3.1 安装

    pip3 install pyquery
    

    3.1.3.2 测试

    import pyquery
    

    3.2 使用BeautifulSoup+lxml解析网页源码

    接着上面的代码来,我们使用BeautifulSoup+lxml解析请求到的网页源码。
      从百度的首页,可以通过点击跳转到很多其他页面,比如说下面圈起来的,点击都会跳转到新的页面:
      百度首页
      现在,我们想要用python获得从百度能够跳转到的页面的链接,该怎么做?
      代码很简单,接着上面的写:

    #coding=utf-8
    import requests
    from bs4 import BeautifulSoup
    
    resp=requests.get('https://www.baidu.com') #请求百度首页
    print(resp) #打印请求结果的状态码
    print(resp.content) #打印请求到的网页源码
    
    bsobj=BeautifulSoup(resp.content,'lxml') #将网页源码构造成BeautifulSoup对象,方便操作
    a_list=bsobj.find_all('a') #获取网页中的所有a标签对象
    for a in a_list:
        print(a.get('href')) #打印a标签对象的href属性,即这个对象指向的链接地址
    

    首先,第3行,引入我们解析时要使用的类库,beautifulsoup4。
      第9行,将网页的源码转化成了BeautifulSoup的对象,这样我们可以向操作DOM模型类似地去操作它。
      第10行,从这个BeautifulSoup对象中,获取所有的a标签对象(大家应该知道a标签对象是什么吧,网页中的链接绝大多数都是a对象实现的),将他们组成一个列表,也就是a_list。
      第11、12行,遍历这个列表,对于列表中的每一个a标签对象,获取它的属性href的值(href属性记录一个a标签指向的链接地址)。获取一个标签对象的属性,可以使用get(‘xx’)方法,比如a_tag是一个a标签对象,获取它的href的值,就是a_tag.get('href'),获取它的class信息可以用a_tag.get('class'),这将返回一个修饰该标签的class列表。
      运行一下,可以看到,打印出了很多链接。
      运行结果
      这是个简单的例子,介绍如何开始一个简单爬虫,不涉及复杂操作(复杂的后面会上小项目,会介绍)。关于beautifulsoup的详细用法,请自行百度。

    3.3 简单的保存数据的方法

    保存数据的方法大概可以分为几类:保存文本、保存二进制文件(包括图片)、保存到数据库。保存二进制文件和保存到数据库后面会具体说,这里简单讲一下怎么保存到文本。
      python里面操作文本相当的简单。现在,我将刚才提取出来的链接保存到一个名称为url.txt的文本里面去,将上面的代码稍作修改。

    #coding=utf-8
    import requests
    from bs4 import BeautifulSoup
    
    resp=requests.get('https://www.baidu.com') #请求百度首页
    print(resp) #打印请求结果的状态码
    print(resp.content) #打印请求到的网页源码
    
    bsobj=BeautifulSoup(resp.content,'lxml') #将网页源码构造成BeautifulSoup对象,方便操作
    a_list=bsobj.find_all('a') #获取网页中的所有a标签对象
    text='' # 创建一个空字符串
    for a in a_list:
        href=a.get('href') #获取a标签对象的href属性,即这个对象指向的链接地址
        text+=href+'\n' #加入到字符串中,并换行
    with open('url.txt','w') as f: #在当前路径下,以写的方式打开一个名为'url.txt',如果不存在则创建
        f.write(text) #将text里的数据写入到文本中
    

    代码中注释写得很清楚了,就不多做解释了。值得一提的是,使用with…as…来打开文件,在操作完成后,会自动关闭文件,不用担心忘记关闭文件了,超级好用啊!
      运行一下代码,可以发现,当前路径下多了个名为url.txt的文件。
      新文件
      打开后,能够看到我们刚才提取出来的url。
      url.txt

    4.更多

    虽然东西不多,但是写了挺长时间的。因为平时在一边上课,一边实习,时间真的不多,抽着时间一点点写的。后面我尽量加快速度写吧,当然了,尽量嘛,写得慢了的话……你顺着网线过来打我呀~
      我也只是个菜鸟,文中错误的地方,欢迎拍砖~

    展开全文
  • python简易实战(1)——猫眼top100 第一篇文章介绍python基本环境搭建,简单实战,希望我们一同进步。 首先,对于初学者,python相比于c、java语言较容易入手,而写爬虫更是简单了不止一星半点。 而对于刚入手...

    python简易实战(1)——猫眼top100

    第一篇文章介绍python基本环境搭建,简单实战,希望我们一同进步。
    

    首先,对于初学者,python相比于c、java语言较容易入手,而写爬虫更是简单了不止一星半点。
    而对于刚入手的同学来说,根据本人的经验,搭建python对应的编译环境可能相比写程序更复杂。
    写程序的话,要上手python简易爬虫只需认真看一篇b站或者某教学网站的爬虫实战视频就可以上手,例如像静态网站那样不需要过多的分析网页。
    所以,我先介绍一下python爬虫开发所需要的前提:
    ①.首先当然是下载python,因为版本的更新,现在大多数爬虫都是3.多版本,本人用的是3.6版本,网站的话百度一个进官网下载即可,当初下载的时候好像没有什么大的问题。
    ②.其次是python爬虫所要用到的库,我习惯用requests库,它比python自带的urllib库更简单,对于这些第三方库,我建议下载一个Anaconda,下载后安装教程https://jingyan.baidu.com/article/3f16e0031e87522591c10320.html,它覆盖了python开发所需的大量的库,这样我们写程序导入第三方库时能省临时下载的时间。
    ③.想要快速上手,IDE是一个很好的东西,pycharm是受大部分学习python的人认同的IDE之一,它分为社区版和企业版,企业版是收费的而社区版是免费的,对于我们平常写的爬虫用社区版就足够了。
    ④.第四步,我个人理解这一步为:搭建编译环境。如何把我们下载的编译程序导入我们的IDE工作台,在这里我简单说明,在pycharm中打开File→Settings→Project→Project interpreter,在箭头处选择编译环境,如果不出意外应该是下面的样子。
    图片描述

    搭建完环境后就可以写简单的爬虫了。
    下面给出经典爬取猫眼电影top100的爬虫,后面有相应注释:

    #__author:'lwq'
    #date: 2018/8/22
    import requests   #对网页进行请求
    from bs4 import BeautifulSoup   #网页解析库
    #    因为第一次,就不用函数形式
    for i in range(0,100,10):  #0到100以10为步长,range总是考虑后面的数减步长
        url = 'http://maoyan.com/board/4?offset={}'.format(i)   #猫眼top100数据所在网页
        headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}   #因为猫眼对爬虫或许有反爬措施,所以这里进行简单的处理,将我们的爬虫伪装成是人访问
        response = requests.get(url,headers = headers)     #对网页进行请求并返回值
        html = response.text      #将网页内容以html返回
        soup = BeautifulSoup(html,'lxml')      #解析网页的一种方法
        name = soup.find_all('p',class_="name")    #对电影名字的定位
        score = soup.find_all('p',class_="score")   #对电影评分的定位
        time = soup.find_all('p',class_="releasetime")  #对电影上映时间的定位
        artist = soup.find_all('p',class_="star")       #对主演的定位
        dic = {}    #创建一个字典,用来储存
        for n in range(len(name)) :         #对于每一部电影进行同样的内容处理
            # print(name[n].text)   #实现提取电影名字
            # print(artist[n].text.strip()[3:])   #获取主演名字
            # print(time[n].text[5:])    #上映时间
            # print(score[n].text)   #评分
            dic['name'] = name[n].text
            dic['star'] = artist[n].text.strip()[3:]
            dic['showtime'] = time[n].text[5:]
            dic['score'] = score[n].text
            print(dic)  #输出字典

    符号#表示注释改行,通过这个简单的代码就可能获取我们想要的猫眼电影top100了,快去试试看吧。
    运行后结果部分如下:
    这里写图片描述

    还有我是一个半路出家的和尚,只学过c和java(还没有学好),python是自学,如果有大佬有更简易的处理方案,希望告诉我这个萌新,希望和你们一起进步。

    展开全文
  • 本文使用Python库requests、Beautiful Soup爬取CSDN博客的相关信息,利用txt文件转存。
  • 最近学习了一下python基础知识,大家一般对“爬虫”这个词,一听就比较熟悉,都知道是爬一些网站上的数据,然后做一些操作整理,得到人们想要的数据,但是怎么写一个爬虫程序代码呢?相信很多人是不会的,今天写一...
  • 一、什么是网络爬虫? 1、定义:网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本。 2、简介:网络蜘蛛是一个很形象的名字。如果把互联网比喻成一个蜘蛛网,...
  • Python爬虫入门项目

    2019-09-21 00:02:43
    Python是什么 Python是著名的“龟叔”Guido van Rossum在1989年圣诞节期间,为了打发无聊的圣诞节而编写的一个编程语言。 创始人Guido van Rossum是BBC出品英剧Monty Python’s Flying Circus(中文:蒙提·派森的...
  • python爬虫(数据采集)入门教程
  • 原计划继续写一下关于手机APP的爬虫,结果发现夜神模拟器总是卡死,比较懒,不想找原因了,哈哈,所以接着写后面的博客了,从50篇开始要写几篇python爬虫的骚操作,也就是用Python3通过爬虫实现一些小工具。...
  • Python爬虫教程

    2020-06-30 22:02:39
    Python爬虫教程: 1、urllib、request 源码分析 2、Python爬虫案例分析 3、Scrapy爬虫框架教程
  • 爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。 原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做。 根据被爬网站的...
  • 以下为Python爬虫入门视频教程目录 需要这个资源可以关注“应届生技能升级和就业”公众号,在微信公众号里发送资源名称,会收到资源链接地址~~ ...
  • 本期视频课程为大家讲解《Python爬虫:电影...《Python爬虫项目直播》技术教程,通过本课的培训学习,您可以系统应用Python网络爬虫入门编程的核心内容,实战Python爬虫开发、框架运用、数据分析,及数据可视化等操作。
  • python爬虫教程

    2020-06-03 23:32:50
    python爬虫 ,教你怎么用python爬虫,,,,,。。。。。。。。。。
  • 本课程使用Python3作为编程语言,主要内容包括Python爬虫的基本原理,编写简单的爬虫,使用爬虫从百度下载比基尼美女图片、beautiful soup的详细使用方法,如何使用beautiful soup分析html代码,基于队列的爬虫、...
  • 本课程以通俗易懂的方式讲解Python爬虫技术,以案例为导向,手把手的Python爬虫实战...爬虫简介,Python爬虫入门、2.基本用法、3.爬虫应用(电影评论数据分析)。教学全程采用笔记+代码案例的形式讲解,通俗易懂!!!
  • python爬虫入门教程

    2019-09-12 16:05:46
    python爬虫入门教程 https://blog.csdn.net/hihell/article/details/86106916
  • 其实Python爬虫技术理论可以应用到很多场景,今天我们就实现一种,下载B站视频。这个小应用就需要我们分析页面,获取链接,下载视频数据。妥妥的一个小爬虫程序。 第一种方式 you-get 这种方式是通过别人写好的库,...
1 2 3 4 5 ... 20
收藏数 55,933
精华内容 22,373